AI 新工具

AI新工具(20240516) 未来的语音AI模型会更像你的同事;开源Chrome扩展用来总结网页内容或进行对话;为任何扩散模型添加多语言生成能力





✨ 1: Hume chatter

Hume 下的EVI 刚刚成为唯一能够进行本地 Web 搜索的语音 API。为了庆祝,他们推出了 Chatter,这是第一个交互式 AI 播客

Chatter AI语音机器人,你跟他对话,AI会播报重点新闻,你也可以根据自己的爱好,让他播报刚兴趣的新闻。

地址:https://github.com/pipecat-ai/pipecat

✨ 2: Pipecat

构建语音和多模态会话代理的框架

Pipecat是一个用于创建语音(以及多模态)对话代理的框架。你可以用它来开发各种对话机器人,例如个人教练、会议助手、儿童故事玩具、客户支持机器人、流程引导等。

Pipecat为创建智能对话机器人提供了非常强大的支持。

地址:https://github.com/pipecat-ai/pipecat

✨ 3: Pi-C.A.R.D

一个完全在树莓派上运行的人工智能语音助手,具备摄像和语音识别功能。

Pi-C.A.R.D 是一个完全运行在 Raspberry Pi 上的 AI 语音助手系统。它有能力在对话环境中完成许多标准的语言模型(例如 ChatGPT)能做的任务。此外,如果连接了摄像头,你还可以让 Pi-C.A.R.D 拍照、描述所看到的内容,并且回答关于该图像的问题。

程序启动后,可以通过说唤醒词(默认是 “hey assistant”)来激活 Pi-C.A.R.D。进入对话状态后,你可以进行一连串的交流,而不需要每次都重复唤醒词,直到你说 “stop”、“exit” 或 “goodbye” 结束对话。

地址:https://github.com/nkasmanoff/pi-card

✨ 4: Page Assist

一个开源Chrome扩展,提供与本地AI模型交互的侧边栏和Web UI

Page Assist是一个开源的Chrome扩展插件,它主要提供了一个侧边栏和Web用户界面,让你可以在任何网页上与本地的AI模型互动。

地址:https://github.com/n4ze3m/page-assist

✨ 5: MuLan

一款多语言扩散模型框架,支持无需微调适配110多种语言

MuLan是一种框架,可以为任何扩散模型(例如生成图片的AI模型)添加多语言生成能力。目前,它支持110多种语言。这个框架可以在只使用英文数据进行训练后,无需额外训练就能在其他语言中使用。此外,MuLan还引入了语言适配器,这是一种轻量级模型(参数少于2000万),可以与许多其他模型和工具(例如LoRA、LCM、ControlNet等)无缝结合,不需要进行额外的微调。

如果你有一个在特定语言(比如英文)上训练的扩散模型,但你希望它能理解和生成其他语言的输出,那么MuLan就是你需要的工具。比如,你在英语上训练了一个AI模型用来生成图片,但你希望它也能理解中文、法文等其他语言,这时候你就可以用MuLan。

地址:https://github.com/mulanai/MuLan



更多AI工具,参考国内AiBard123Github-AiBard123

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621