AI新工具(20240407)
✨ 1: Octopus v2
Octopus v2 是一个拥有 20 亿参数的开源语言模型,专为 Android API 量身定制,能够在智能手机、汽车、个人电脑等端侧运行。与 GPT-4 相比,Octopus v2 在准确性和延迟方面表现更好,并将上下文长度减少了 95%。此外,Octopus v2 模型还比 Llama7B + RAG 方案快 36 倍。这个模型在推理速度和准确率上都表现出色,特别适用于边缘计算设备。
地址:https://huggingface.co/NexaAIDev/Octopus-v2
✨ 2: CameraCtrl
CameraCtrl是一个支持文本到视频生成中精确相机控制的新模型。
CameraCtrl是一个旨在提升文本到视频(T2V, Text-to-Video)生成过程中相机控制精确度的技术。简而言之,这项技术允许用户通过指定相机的位置和角度,生成与文本描述相匹配的定制视频内容。文本到视频的生成技术本身已经相当先进,但CameraCtrl进一步通过精确控制相机视角,赋予了内容创作者更大的自由度和表达能力。
地址:https://hehao13.github.io/projects-CameraCtrl/
✨ 3: Gecko
Gecko是一种从大型语言模型中提炼出的多功能紧凑文本嵌入模型,由Google DeepMind发布。
Gecko是由Google DeepMind提出的一种紧凑且多功能的文本嵌入模型。它的主要特点是通过从大型语言模型(LLMs)中提取知识到一个检索器中来实现强大的检索性能。Gecko的开发过程包括两个步骤:首先,使用LLM生成多样化的合成配对数据;接着,通过对每个查询检索一组候选文段,并使用同一LLM重新标记正面和困难的负面文段,进一步提炼数据质量。Gecko的有效性体现在其紧凑性上,在Massive Text Embedding Benchmark (MTEB)上,拥有256嵌入维度的Gecko就超越了所有拥有768嵌入大小的现有模型。而拥有768嵌入维度的Gecko达到了平均得分66.31,与体积大7倍、嵌入维度高5倍的模型竞争。
地址:https://deepmind.google/research/publications/85521/
✨ 4: InstantStyle
InstantStyle是一个旨在文本到图像生成过程中保持风格的通用框架,使用了两种简单却强大的技术来有效地从参考图像中分离风格和内容。
地址:https://github.com/InstantStyle/InstantStyle
✨ 5: universal-1
AssemblyAI推出Universal-1,这是一款经过12.5百万小时多语言音频数据训练、在英语、西班牙语、法语和德语上具备业界领先准确度的强大语音识别模型。
Universal-1是AssemblyAI研究团队开发的一个先进的多语言语音识别模型。这个模型使用12.5百万小时的多语种音频数据进行训练,拥有约6亿参数。Universal-1针对英语、西班牙语、法语和德语四种主要语言,实现了业界领先的语音转文本准确率。通过使用先进的ASR(自动语音识别)研究和技术,Universal-1提供了高准确度、高效率和低错误率的语音识别能力。
Universal-1的推出,为需要多语言语音识别功能的开发者和企业提供了一个强大且准确的工具,帮助他们更高效地开发和部署语音AI应用。
地址:https://www.assemblyai.com/research/universal-1
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621