AI 新工具

AI新工具(20250107) 开源多模态实时语音交互VITA;OpenAI开源结构化输出构建NextJS应用;使用AI智能体生成完整的书籍





✨ 1: VITA-1.5

VITA-1.5是一款强大的开源交互式多模态大语言模型,支持实时视觉与语音交互。

VITA-1.5 是一个开源的互动多模态大型语言模型,旨在实现实时视觉和语音交互,接近GPT-4o级别的性能。与之前的版本VITA-1.0相比,VITA-1.5在多个方面进行了改进,主要包括:

交互延迟显著降低:语音交互的端到端延迟从约4秒减少到1.5秒,提升用户体验。 多模态性能增强:在多个基准测试(如MME、MMBench和MathVista)上的平均性能从59.8提高到70.8。 语音处理能力改善:ASR(自动语音识别)错误率从18.4降至7.5,同时替换了独立的TTS(文本到语音)模块为端到端的TTS模块,提高了语音合成质量。 渐进式训练策略:语音能力的增加对其他多模态性能影响较小,图像理解性能的平均值轻微下降。

地址:https://github.com/VITA-MLLM/VITA

✨ 2: Structured Outputs Sample Apps

Structured Outputs示例应用展示了如何利用OpenAI API的结构化输出功能构建可靠的NextJS应用。

Structured Outputs Sample Apps 是一系列展示如何在 OpenAI API 中利用结构化输出功能的示例应用。这一功能确保模型的响应和工具调用符合预定义的 JSON 模式,从而提高了应用构建的可靠性,减小了模型输出的不确定性和工作流程的可预见性之间的差距。

地址:https://github.com/openai/openai-structured-outputs-samples

✨ 3: AutoGen Book Generator

AutoGen书籍生成器是一个基于Python的系统,通过多个AI代理合作生成完整且结构化的书籍。

AutoGen Book Generator 是一个基于 Python 的系统,利用 AutoGen 技术通过协作 AI 代理生成完整的书籍。该系统采用了多个专业化的代理,共同合作从初始提示中创建连贯且结构化的叙事内容。

地址:https://github.com/adamwlarson/ai-book-writer

✨ 4: BetterWhisperX

BetterWhisperX是WhisperX的改进版本,支持快速的多语种自动语音识别与说话人分离。

BetterWhisperX 是 WhisperX 的一个分支,旨在对原有的自动语音识别(ASR)模型进行改进。此项目的重要功能包括更快速的转录处理(实时速率可达 70 倍)、准确的单词级时间戳以及发言人分离技术。这些改进是通过结合了强大的音频处理和对话识别技术如强制音素对齐、语音活动检测(VAD)以及来自 pyannote-audio 的发言人鉴定实现的。原始的 Whisper 模型虽然可以生成高质量的转录,但其时间戳的准确性却有限,而 BetterWhisperX 通过使用 wav2vec2 对齐模型和其他优化手段显著提升了时间戳的准确性。

地址:https://github.com/federicotorrielli/BetterWhisperX

✨ 5: VisionReward

VisionReward 是一种多维度人类偏好学习模型,用于图像和视频生成的精细化评估。

VisionReward是一个细粒度、多维度的人类偏好学习模型,旨在提高图像和视频生成的质量。该模型通过将人类的偏好分解为多个维度,每个维度由一系列判断问题组成,这些问题经过线性加权和求和,生成一个可解释且准确的分数。为了克服视频质量评估中的挑战,VisionReward系统地分析了视频的各种动态特征,使其在视频偏好预测上的表现超越了现有的VideoScore,提升了17.2%。

地址:https://github.com/THUDM/VisionReward



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621