Nanospeech Nanospeech Nanospeech是一个基于PyTorch和MLX的文本到语音合成系统，旨在构建一个简单、易于理解且可扩展的文本到语音模型。该项目专注于语音合成的研究，能够支持从参考语音样本中的声音匹配，并提供多种不同的内置声音。 Nanospeech提

Nanospeech

Nanospeech是一个基于PyTorch和MLX的文本到语音合成系统，旨在构建一个简单、易于理解且可扩展的文本到语音模型。该项目专注于语音合成的研究，能够支持从参考语音样本中的声音匹配，并提供多种不同的内置声音。

Nanospeech提供一个82M参数的预训练模型（仅限英语），该模型在单个H100 GPU上使用公共领域数据训练数日。此模型设计为尽可能小，以便成为可重复的基线，并实现快速推理。在最新的M系列Apple Silicon或Nvidia GPU上，语音生成速度约为实时的3-5倍。

用户可以通过简单的安装命令来使用Nanospeech，并使用提供的命令生成语音。该系统支持选择不同的声音，并能够根据提供的语音样本进行声音匹配。Nanospeech的训练部分也包含在内，支持多GPU训练，并兼容来自WebDataset的流式数据。

总的来说，Nanospeech是一个灵活、可修改的语音合成工具，适合于研究、开发以及实际应用。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621