BASE TTS
BASE TTS 是一个多语言、多说话人的大型 TTS(LTTS)系统,在约 10 万小时的公共领域语音数据上进行了训练。它是目前为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。在主观评估中,BASE TTS 的表现优于公开的 LTTS 基线模型。研究者提出了 BASE TTS,这一模型在不同变体的基准上显示出了其在涌现能力方面的优势。此外,BASE TTS 还提出了一种通过 WavLM SSL 模型建立的新型离散语音表示法,用于捕捉语音信号的音位和韵律信息。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621