VLOGGER
VLOGGER是一种文本和音频驱动的人体视频生成方法,能够从一个人的单个输入图像中生成说话的人类视频。该方法基于最近生成扩散模型的成功,包括1) 随机的人体到3D运动扩散模型,以及2) 一种新颖的基于扩散的架构,将文本到图像模型与时间和空间控制相结合。这种方法使得生成长度可变的高质量视频变得容易控制,通过对人脸和身体的高级表示。与以往方法不同的是,我们的方法不需要为每个人进行训练,也不依赖于人脸检测和裁剪,生成完整的图像(而不仅仅是脸部或嘴唇),考虑到了正确合成沟通的人的广泛情景(例如,可见的躯干或不同的主体身份)。
我们在三个不同的基准上评估了VLOGGER,并展示了所提出的模型在图像质量、身份保留和时间一致性方面超越了其他最先进的方法。我们收集了一个新的多样化数据集MENTOR,比以前的数据集大一个数量级(2,200小时和800,000个身份,以及一个测试集,包含120小时和4,000个身份),我们在此数据集上进行了训练和消融我们的主要技术贡献。我们报告了VLOGGER在多个多样性指标方面的性能,显示我们的架构选择有利于在规模上训练公平和无偏见的模型。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621