AudioLCM
AudioLCM是一种高效、优质的文本到音频生成模型,利用潜在一致性模型(Latent Consistency Model)实现。该项目提供了PyTorch实现和预训练模型,并在GitHub和HuggingFace上开源。其主要特点在于能够快速生成高保真度的音频样本。
使用场景
- 文本到音频的生成:可以根据输入的文本描述生成相应的音频。
- 语音合成与转换:尤其适用于需要高质量语音输出的应用,如语音助手、音频读物等。
- 多媒体内容创作:可用于游戏、动画和电影配音等多媒体内容创作领域。
快速开始
要在本地环境中使用AudioLCM,需保证有NVIDIA GPU和CUDA cuDNN。首先克隆项目仓库,然后下载所需的预训练模型权重并放置在指定路径中。
支持的数据集和预训练模型
权重文件可以从Huggingface下载,包括audiolcm.ckpt、BigVGAN vocoder等。
依赖项
需要安装项目依赖,详见requirement.txt
。
预训练模型推理
使用下面的命令进行推理:
python scripts/txt2audio_for_lcm.py --ddim_steps 2 -b configs/audiolcm.yaml --sample_rate 16000 --vocoder-ckpt vocoder/logs/bigvnat16k93.5w --outdir results --test-dataset audiocaps -r ckpt/audiolcm.ckpt
训练
- 数据集准备:将数据集信息构建成tsv文件,包括音频ID、数据集名称、音频路径、音频描述、melspec文件路径。
- 生成melspec文件:根据已有tsv文件生成melspec文件。
- 训练变分自编码器(VAE):根据准备好的数据集进行VAE训练。
- 训练潜在扩散模型:使用训练好的VAE检查点,进行扩散模型训练。
评估
生成样本后,可以计算FD、FAD、IS、KL等指标,以及Clap_score。
致谢
该实现参考了多个开源项目,如Make-An-Audio、CLAP等。
引用
如果您在研究中使用了该代码,请考虑引用以下文献:
@misc{liu2024audiolcm,
title={AudioLCM: Text-to-Audio Generation with Latent Consistency Models},
author={Huadai Liu and Rongjie Huang and Yang Liu and Hengyuan Cao and Jialei Wang and Xize Cheng and Siqi Zheng and Zhou Zhao},
year={2024},
eprint={2406.00356},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
声明
禁止任何组织或个人未经允许使用本文所提及的技术生成他人声音,包括但不限于政府领导人、政治人物和名人,以免违反相关法律。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621