AI新工具(20240415) AI 可穿戴设备Insight;Cohere Command R 免费体验地址;马斯克多模态模型grok-1.5v发布;Udio可以生成喜剧、演讲、NPC对话等
![](https://aibard123.com/images/aitools/2024/04/Udio_comedy.jpg)
✨ 1: Udio
Udio是一款新型AI音乐生成器,能够根据需求合成逼真的音乐。
Udio是一个由前DeepMind员工启动的新型AI音乐合成服务,它可以根据文字提示(包括用户提供的歌词)创建全新的高保真音乐音频。 它可以做喜剧、演讲、NPC对话、体育分析、广告、广播、asmr、自然声音等。 它基本上是一个 AI 音频引擎。
地址:https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1
✨ 2: Insights
AI 可穿戴设备Insight
在本周末的 @Google X @mhacks Hackathon 上,用 Raspberry Pi 构建了一个名为 Insight 的 AI 可穿戴设备。
Insight 使用 Gemini 1.5 Pro 根据您的所见所闻回答问题,并为您记住这些记忆。
地址:https://github.com/advaitpaliwal/insight
✨ 3: grok-1.5v
一款能够处理文本和视觉信息(如文档、图表和照片)的首款多模态模型
Grok-1.5V是一种前沿的多模态模型,它专为连接数字和物理世界而设计。这意味着Grok-1.5V不仅能够处理和理解文本信息,还能分析和解释从文档、图表、截图到照片等各种视觉信息。在简单的话来说,你可以把它想象成一个智能工具,它能读懂文字也能“看懂”图片,从而帮助用户更全面地理解和互动信息。
地址:https://x.ai/blog/grok-1.5v
✨ 4: Command R
Command R 体验地址
Command R是一个来自Cohere的最新模型,旨在提供流畅自然的对话体验和执行需要长上下文的复杂任务的能力。这个模型属于“可扩展”类别,意味着它旨在提供高性能和精确度。使用Command R的情况包括,但不限于需要高度精确的信息检索、执行长对话或者处理包含大量上下文的任务时。
体验地址:https://huggingface.co/chat/models/CohereForAI/c4ai-command-r-plus/ 或者:https://coral.cohere.com/
地址:https://coral.cohere.com/
✨ 5: Reader
Reader是一个为语言模型(LLM)设计的工具,旨在改善这些模型处理网页内容时的输入质量。它通过简化的方式将任意URL的内容转换成更适合语言模型处理的格式。这种处理不仅包括提取主要内容,去除不必要的格式和杂质,还可能包括将内容分解为更容易由模型处理的形式。
地址:https://github.com/jina-ai/reader
✨ 6: SwapAnything
允许在保持背景不变的情况下,用个性化参照物替换图片中任意对象
SwapAnything是一种新颖的图片编辑框架,它允许用户在保持图片背景不变的情况下,将图中的任何对象替换成个性化的参照物。这意味着无论你想替换图片中的哪个部分,不管是单个对象、多个对象,还是部分对象,甚至是跨领域(比如将现实中的物体替换成卡通形象)的替换,SwapAnything都能做到,而且做得很精准,不会影响到图片中的其他像素,保持了背景的一致性。
地址:https://swap-anything.github.io/
✨ 7: CoXL Edit
将图像生成和编辑能力结合的先进技术,通过提高图像处理的灵活性和精细度
CoXL Edit功能是Stability AI最近推出的一种先进的图像处理和生成技术,其中结合了基础的CoXL技术和增强的Edit功能。这项技术旨在提供给用户更强大、更细腻的图像处理能力。接下来,我会用通俗的语言来解释CoXL Edit的功能,以及它适用于哪些情况。
地址:https://huggingface.co/spaces/multimodalart/cosxl
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621