MusicLM 介绍 MusicLM是一个模型，可以从文本描述中生成高保真度的音乐，例如“由失真的吉他伴奏的平静的小提琴旋律”。该模型将有条件的音乐生成过程视为分层序列到序列建模任务，并以24 kHz生成音乐，其一致性在几分钟内保持不变。 MusicLM在音频质

MusicLM是一个模型，可以从文本描述中生成高保真度的音乐，例如“由失真的吉他伴奏的平静的小提琴旋律”。

该模型将有条件的音乐生成过程视为分层序列到序列建模任务，并以24 kHz生成音乐，其一致性在几分钟内保持不变。

MusicLM在音频质量和对文本描述的遵循方面均优于以前的系统。此外，该模型可以同时以文本和旋律为条件，可以根据文本标题中描述的风格转换吹口哨和哼唱的旋律。

为了支持未来的研究，作者公开发布了MusicCaps数据集，其中包含5.5k个音乐-文本对，由人类专家提供了丰富的文本描述。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621