AI新工具(20240620) 麻省理工学院授权的 7000 种语言的文本转语音;世界首款开源的实时翻译应用;Chatbot Arena 现在支持图片上传
✨ 1: IMS-Toucan
麻省理工学院授权的 7000 种语言的文本转语音
IMS-Toucan 是由 DigitalPhonetics 团队开发的一个开源项目,主要用来进行大规模语音合成任务。它的设计目标是处理大规模、多样化的数据集,并生成高质量的语音输出。IMS-Toucan 基于深度学习技术,特别针对文本到语音转换(TTS)领域进行了优化。
地址:https://github.com/DigitalPhonetics/IMS-Toucan
✨ 2: RTranslator
世界首款开源的实时翻译应用,支持多人多语言对话。
RTranslator是全球首个开源实时翻译应用程序。它可以连接另一台使用该应用的手机,使用蓝牙耳机并将手机放入口袋,你就可以像对方讲你语言一样对话。其主要功能包括:
地址:https://github.com/niedev/RTranslator
✨ 3: HumanSplat
一种能够从单张输入图像预测3D高斯分摊属性的通用化方法
HumanSplat 是一种通用的单图像人体高斯泼溅预测技术,结合了结构先验知识。它由 ByteDance、北京大学、厦门大学和清华大学的研究团队合作开发。
通用性:HumanSplat 能够从单张输入图像中预测任何人类的3D高斯泼溅属性,具有高度的通用性。 创新框架:包括一个二维多视角扩散模型和一个结合了人体结构先验的潜在重建变换器(latent reconstruction transformer),巧妙地整合了几何先验和语义特征。 高保真度:设计了一个结合了人体语义信息的分层损失函数,以实现高保真的纹理建模和更好地约束多视角估计。 实验验证:在标准基准测试和实际图像应用中,HumanSplat 显示了优异的性能,能够超越现有的最先进技术,实现逼真的新视角合成。
地址:https://humansplat.github.io/
✨ 4: lmsys
Chatbot Arena 现在支持图片上传
用你最棘手的问题挑战 GPT-4o、Gemini、Claude 和 LLaVA。无论是绘图编码、视觉问答还是讲故事,任你选择。
让我们发挥创意,享受乐趣吧!排行榜即将推出。
地址:https://chat.lmsys.org/
✨ 5: EscherNet
EscherNet是一个通过多视图条件编码实现高精度与连续相机变换的生成式模型
EscherNet是一种生成模型,旨在解决可扩展视图合成问题。通过多视图条件扩散模型,EscherNet能够学习结合相机位置信息编码(Camera Positional Encoding, CaPE)的隐式和生成3D表示,从而在任意数量的参考视图和目标视图之间实现精确和连续的相机转换控制。这一模型利用自/交叉注意力机制将相机姿态信息嵌入Transformer中,支持4自由度(4DoF)和6自由度(6DoF)的相机位置信息编码。
地址:https://github.com/kxhit/EscherNet
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621