AI新工具(20240226) YOLOv9 - 新型实时对象检测模型
YOLOv9 - 新型实时对象检测模型
YOLOv9是基于深度学习的一种快速、准确的对象检测算法。其主要亮点在于能够在保持较高检测精度的同时,实现快速的检测速度,适合在实时应用中使用。
https://github.com/WongKinYiu/yolov9
Genie - Google发布的从互联网视频中学习的基础世界模型
Genie
Genie是一个基于互联网视频训练的基础世界模型,能够通过单张图片提示生成无尽种类的可玩(可通过行动控制)世界,这些图片可以是合成图像、照片乃至素描。Genie的独特之处在于其能够只通过观看互联网视频学习精细的控制能力,而这些视频通常不包含关于正在执行的动作的标签,甚至不明确哪部分图像应该被控制。尽管如此,Genie不仅学会了哪些观察部分通常是可控的,还推断出了在生成环境中一致的多种潜在动作。
https://sites.google.com/view/genie-2024/
MeloTTS - 支持多语言的高品质文本转语音库,支持中英文混合及实时CPU推理。
MeloTTS是一个由MyShell.ai开发的高质量、支持多语言的文本转语音库。简单来说,它就像一个多才多艺的朗读家,能够用不同的语言和口音把文字“读”出来,听起来就像是真人在说话一样。它支持的语言包括英语(还细分为美式、英式、印度式和澳大利亚式英语)、西班牙语、法语、中文(还能混合英文)、日语和韩语等。
https://github.com/myshell-ai/MeloTTS
FakeSoraAPI - 用于SoraWebui的API,可以从文本生成视频,并提供了在线演示。
FakeSoraAPI
FakeSoraAPI是一个为SoraWebui设计的API,其主要功能是基于文本生成视频。它提供了一个简单的方式来将文本内容转换为视频内容,非常适用于希望通过程序自动化生成视频的开发者或者内容创作者。
https://github.com/SoraWebui/FakeSoraAPI
verbalate - 视频翻译软件,提供完整的语音克隆和口型同步功能
Verbalate是一款先进的视频和音频翻译软件,可以帮助用户将内容翻译成多种语言,同时提供语音克隆和可选的口型同步功能。下面用通俗的语言详细介绍Verbalate的功能和它可能被使用的场景。
更多AI工具,参考国内AiBard123,Github-AiBard123
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621