AI新工具(20240516) 未来的语音AI模型会更像你的同事;开源Chrome扩展用来总结网页内容或进行对话;为任何扩散模型添加多语言生成能力
✨ 1: Hume chatter
Hume 下的EVI 刚刚成为唯一能够进行本地 Web 搜索的语音 API。为了庆祝,他们推出了 Chatter,这是第一个交互式 AI 播客
Chatter AI语音机器人,你跟他对话,AI会播报重点新闻,你也可以根据自己的爱好,让他播报刚兴趣的新闻。
地址:https://github.com/pipecat-ai/pipecat
✨ 2: Pipecat
构建语音和多模态会话代理的框架
Pipecat是一个用于创建语音(以及多模态)对话代理的框架。你可以用它来开发各种对话机器人,例如个人教练、会议助手、儿童故事玩具、客户支持机器人、流程引导等。
Pipecat为创建智能对话机器人提供了非常强大的支持。
地址:https://github.com/pipecat-ai/pipecat
✨ 3: Pi-C.A.R.D
一个完全在树莓派上运行的人工智能语音助手,具备摄像和语音识别功能。
Pi-C.A.R.D 是一个完全运行在 Raspberry Pi 上的 AI 语音助手系统。它有能力在对话环境中完成许多标准的语言模型(例如 ChatGPT)能做的任务。此外,如果连接了摄像头,你还可以让 Pi-C.A.R.D 拍照、描述所看到的内容,并且回答关于该图像的问题。
程序启动后,可以通过说唤醒词(默认是 “hey assistant”)来激活 Pi-C.A.R.D。进入对话状态后,你可以进行一连串的交流,而不需要每次都重复唤醒词,直到你说 “stop”、“exit” 或 “goodbye” 结束对话。
地址:https://github.com/nkasmanoff/pi-card
✨ 4: Page Assist
一个开源Chrome扩展,提供与本地AI模型交互的侧边栏和Web UI
Page Assist是一个开源的Chrome扩展插件,它主要提供了一个侧边栏和Web用户界面,让你可以在任何网页上与本地的AI模型互动。
地址:https://github.com/n4ze3m/page-assist
✨ 5: MuLan
一款多语言扩散模型框架,支持无需微调适配110多种语言
MuLan是一种框架,可以为任何扩散模型(例如生成图片的AI模型)添加多语言生成能力。目前,它支持110多种语言。这个框架可以在只使用英文数据进行训练后,无需额外训练就能在其他语言中使用。此外,MuLan还引入了语言适配器,这是一种轻量级模型(参数少于2000万),可以与许多其他模型和工具(例如LoRA、LCM、ControlNet等)无缝结合,不需要进行额外的微调。
如果你有一个在特定语言(比如英文)上训练的扩散模型,但你希望它能理解和生成其他语言的输出,那么MuLan就是你需要的工具。比如,你在英语上训练了一个AI模型用来生成图片,但你希望它也能理解中文、法文等其他语言,这时候你就可以用MuLan。
地址:https://github.com/mulanai/MuLan
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621