AI新工具(20240912) 基于Llama构建的语音语言模型LLaMA-Omni;增强记忆的长文本建模检索方法;全功能的AI应用AnythingLLM
✨ 1: LLaMA-Omni
LLaMA-Omni是基于Llama-3.1-8B-Instruct构建的语音语言模型,支持高质量低延迟的语音互动。
LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的语音语言模型,旨在实现高效的语音互动。该模型支持低延迟和高质量的语音交互,能够根据语音指令同时生成文本和语音响应。其延迟低至226毫秒,并在不到三天内使用四个GPU进行训练完成,从而能够快速响应用户的需求。
地址:https://github.com/ictnlp/LLaMA-Omni
✨ 2: MemLong
MemLong 是一种增强记忆的长文本建模检索方法,旨在提高文本处理效果。
MemLong是一个针对长文本建模的内存增强检索模型。它旨在有效处理超长文本的相关信息,同时提高生成文本的质量和准确性。MemLong结合了内存增强的策略,能够在处理长文本时进行更有效的信息检索,从而提升模型在长文本处理任务中的性能。
地址:https://github.com/Bui1dMySea/MemLong
✨ 3: anything-llm
AnythingLLM是一个全功能的AI应用,支持多用户、文档交流和自定义设置,操作简单。
Anything-LLM 是一款全栈应用程序,旨在帮助用户将任何文档或资源转化为可供大型语言模型(LLM)使用的上下文,从而在对话中提供更丰富的内容支持。用户可以选择不同的 LLM 或向量数据库,并支持多用户管理和权限设置,几乎无需复杂的设置即可使用。
多模态支持:可以使用多种商业和开源 LLM。 多用户支持:适合团队协作使用。 智能代理:支持在工作区内执行浏览、运行代码等任务。 文档支持:支持多种文档类型,包括 PDF、TXT 和 DOCX。 云部署:100% 支持云平台部署。 自定义 API:提供开发者 API 以便进行自定义集成。
地址:https://github.com/Mintplex-Labs/anything-llm
✨ 4: SciAgents
SciAgents通过多智能体图推理自动化科学发现,揭示了生物启发材料领域的隐藏跨学科关系。
SciAgents是一个由麻省理工学院(MIT)的研究团队开发的框架,旨在通过多智能体智能图推理来自动化科学发现。该框架结合了三个核心概念:大规模本体知识图谱的使用、海量语言模型和数据检索工具的结合,以及具备现场学习能力的多智能体系统。SciAgents专注于生物启发材料的研究,能够揭示以前被认为没有关系的学科间隐藏关系,超越传统人类驱动的研究方法,实现更高的规模、精度和探索能力。
地址:https://github.com/lamm-mit/SciAgentsDiscovery
✨ 5: Robot Utility Models
Robot Utility Models(RUMs)是一种无需微调即可在新环境中直接应用的机器人政策训练框架。
Robot Utility Models是一种新兴的 robot policy 框架,旨在实现零-shot(无需微调)在新环境中的机器人政策部署。该模型通过利用大规模数据训练的机器人模型,展示了在真实世界中的操作和导航能力。RUMs 可以直接推广到新的环境中,而无需针对每个新环境进行微调,这与语言或视觉模型在开放世界问题上的灵活性形成对比。
为了高效创建Robot Utility Models,研究者们开发了新工具,以快速收集移动操作任务的数据,并通过多模态模仿学习(multi-modal imitation learning)将这些数据集成到政策中。该系统在Hello Robot Stretch机器人上进行部署,并引入了外部的多模态大型语言模型(mLLM)验证器进行重试操作。研究中训练了五个实用模型,任务包括开柜门、开抽屉、拾起餐巾纸、拾起纸袋和重新定位倾倒的物体。在未见的新环境中,该系统平均成功率达90%。
地址:https://github.com/haritheja-e/robot-utility-models
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621