Llama3-S Llama3-S 简介 Llama3-S是一个开放的、正在进行中的研究实验，旨在将文本语言模型（LLM）扩展为具有“听力”能力。该项目借鉴了Meta的Chameleon论文中的技术，采用了早期融合模型的训练方法，重点在于通过扩展LLM的词汇表，使其包含声音标

Llama3-S

Llama3-S是一个开放的、正在进行中的研究实验，旨在将文本语言模型（LLM）扩展为具有“听力”能力。该项目借鉴了Meta的Chameleon论文中的技术，采用了早期融合模型的训练方法，重点在于通过扩展LLM的词汇表，使其包含声音标记，从而扩展至未来的多种输入类型。

Llama3-S的使用场景主要集中在以下几个方面：

Llama3-S项目是开放的研究项目，欢迎任何对该领域感兴趣的人士加入我们的团队。我们未来可能会转向众包语音数据集的生成。

你可以通过Google Colab快速开始使用Llama3-S，详细的步骤和代码可以在项目的GitHub仓库中找到。

项目中使用了一些重要的参考文献和工具，包括Meta的Chameleon论文、Hugging Face的Accelerate库、WhisperSpeech的文本到语音生成模型以及Facebook的Encodec音频编解码器。

感谢以下项目和工具为我们的工作提供支持：

通过这些工具和技术的支持，Llama3-S项目得以顺利进行并取得初步成果。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621