Prompt-Singer Prompt-Singer Prompt-Singer 简介 Prompt-Singer 是一个可控的歌声音频合成模型，由浙江大学的研究团队开发。通过自然语言提示，Prompt-Singer 可以控制歌手的性别、音量和音域，从而生成符合特定要求的歌声音频。这个模型采用 PyTorch 实现，并使用了经过微调的 FLAN-T5 用作主要技术框架。使用场景

Prompt-Singer

Prompt-Singer 简介

Prompt-Singer 是一个可控的歌声音频合成模型，由浙江大学的研究团队开发。通过自然语言提示，Prompt-Singer 可以控制歌手的性别、音量和音域，从而生成符合特定要求的歌声音频。这个模型采用 PyTorch 实现，并使用了经过微调的 FLAN-T5 用作主要技术框架。

使用场景

音乐制作：音乐制作人和作曲家可以使用 Prompt-Singer 来生成特定风格和要求的歌声，以便快速制作音乐样本或完整作品。
配音和多媒体制作：在电影、电视剧或动画中，根据角色需求生成符合情节的歌声，增强视听效果。
声音艺术：声音艺术家可以利用这个工具创造新的声音作品，探索音乐和语音合成的创新可能性。
智能助手和虚拟角色：为智能助手或虚拟角色制作特定语感和风格的歌声，提高互动体验。
教育和训练：在音乐教育和训练中，生成具有特定特点的歌声用作学习材料或练习范本。

使用说明

依赖环境：需要 PyTorch 2.1.0 或以上版本，Python 3.8 或以上版本，以及 NVIDIA GPU 和 NCCL。
安装依赖库：包括 NVIDIA 的 apex 库和 fairseq 库。
模型权重下载：通过 Hugging Face 平台下载所需的模型检查点，涵盖 SoundStream、微调后的 FLAN-T5、transformer 主干网络和 unit vocoder。
推理过程：
- 声学令牌推理：根据配置文件生成声学单位。
- 波形生成：生成推理结果的音频文件。
训练：可以使用自己准备的数据集进行模型训练，并附有详细的数据处理方法和训练指令。

数据处理

为训练模型，需要处理好对齐的音素、音高以及相关标签。提供了生成对齐音素、提取音高并重新缩放的方法和脚本。

注意事项

该代码的部分实现可能与论文发表时有一些差异，正确性尚未完全验证。在使用过程中遇到问题可以提出 Issue。此外，禁止利用该技术未经许可地生成某人的歌声。

参考引文

如果在您的研究中使用了 Prompt-Singer，请引用原文进行开源代码的致谢：

@inproceedings{wang2024prompt,
  title={Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt},
  author={Wang, Yongqi and Hu, Ruofan and Huang, Rongjie and Hong, Zhiqing and Li, Ruiqi and Liu, Wenrui and You, Fuming and Jin, Tao and Zhao, Zhou},
  booktitle={Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)},
  pages={4780--4794},
  year={2024}
}

免责声明

禁止任何组织或个人在未经他人同意的情况下，利用本文提到的技术生成其歌声（包括但不限于政府领导人、政治人物、和名人）。违反可能会触犯版权法。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621

Prompt-Singer

介绍：

Prompt-Singer

Prompt-Singer 简介

使用场景

使用说明

数据处理

注意事项

参考引文

免责声明