Kokoro-82M
Kokoro-82M是一款前沿的文本转语音(TTS)模型,拥有8200万参数,支持将文本转换为音频。该模型于2024年12月25日发布,并在同年年底前陆续推出了多种声音包。Kokoro-82M在TTS领域的表现尤为突出,尽管训练数据少于100小时,但在多个对比测试中显示出优异的性能,超越了许多参数更多的模型。
Kokoro-82M的架构属于StyleTTS 2,专注于美国和英国英语的发音,提供丰富的声音包选择。模型支持Apache 2.0许可证,可以免费使用和修改。
在训练过程中,Kokoro使用了许可的非版权音频数据,通过80GB的A100 GPU实例进行训练。该模型的局限性包括缺乏声音克隆能力,主要训练于长篇朗读和叙述音频,而非对话音频。
用户可以在Hugging Face平台上体验Kokoro的在线演示,进行文本转语音的转换。该模型在社区中得到了积极的反馈,并受到开发者和研究人员的广泛关注。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621