AudioLCM AudioLCM AudioLCM是一种高效、优质的文本到音频生成模型，利用潜在一致性模型（Latent Consistency Model）实现。该项目提供了PyTorch实现和预训练模型，并在GitHub和HuggingFace上开源。其主要特点在于能够快速生成高保真度的音频

AudioLCM

AudioLCM是一种高效、优质的文本到音频生成模型，利用潜在一致性模型（Latent Consistency Model）实现。该项目提供了PyTorch实现和预训练模型，并在GitHub和HuggingFace上开源。其主要特点在于能够快速生成高保真度的音频样本。

使用场景

文本到音频的生成：可以根据输入的文本描述生成相应的音频。
语音合成与转换：尤其适用于需要高质量语音输出的应用，如语音助手、音频读物等。
多媒体内容创作：可用于游戏、动画和电影配音等多媒体内容创作领域。

快速开始

要在本地环境中使用AudioLCM，需保证有NVIDIA GPU和CUDA cuDNN。首先克隆项目仓库，然后下载所需的预训练模型权重并放置在指定路径中。

支持的数据集和预训练模型

权重文件可以从Huggingface下载，包括audiolcm.ckpt、BigVGAN vocoder等。

依赖项

需要安装项目依赖，详见requirement.txt。

预训练模型推理

使用下面的命令进行推理：

python scripts/txt2audio_for_lcm.py  --ddim_steps 2 -b configs/audiolcm.yaml --sample_rate 16000 --vocoder-ckpt  vocoder/logs/bigvnat16k93.5w --outdir results --test-dataset audiocaps  -r ckpt/audiolcm.ckpt

训练

数据集准备：将数据集信息构建成tsv文件，包括音频ID、数据集名称、音频路径、音频描述、melspec文件路径。
生成melspec文件：根据已有tsv文件生成melspec文件。
训练变分自编码器（VAE）：根据准备好的数据集进行VAE训练。
训练潜在扩散模型：使用训练好的VAE检查点，进行扩散模型训练。

评估

生成样本后，可以计算FD、FAD、IS、KL等指标，以及Clap_score。

致谢

该实现参考了多个开源项目，如Make-An-Audio、CLAP等。

引用

如果您在研究中使用了该代码，请考虑引用以下文献：

@misc{liu2024audiolcm,
      title={AudioLCM: Text-to-Audio Generation with Latent Consistency Models}, 
      author={Huadai Liu and Rongjie Huang and Yang Liu and Hengyuan Cao and Jialei Wang and Xize Cheng and Siqi Zheng and Zhou Zhao},
      year={2024},
      eprint={2406.00356},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}

声明

禁止任何组织或个人未经允许使用本文所提及的技术生成他人声音，包括但不限于政府领导人、政治人物和名人，以免违反相关法律。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621

AudioLCM

介绍：

AudioLCM

使用场景

快速开始

支持的数据集和预训练模型

依赖项

预训练模型推理

训练

评估

致谢

引用

声明