VLOGGER VLOGGER VLOGGER是一种文本和音频驱动的人体视频生成方法，能够从一个人的单个输入图像中生成说话的人类视频。该方法基于最近生成扩散模型的成功，包括1) 随机的人体到3D运动扩散模型，以及2) 一种新颖的基于扩散的架构，将文本到图像模型与时间和空间控

VLOGGER

VLOGGER是一种文本和音频驱动的人体视频生成方法，能够从一个人的单个输入图像中生成说话的人类视频。该方法基于最近生成扩散模型的成功，包括1) 随机的人体到3D运动扩散模型，以及2) 一种新颖的基于扩散的架构，将文本到图像模型与时间和空间控制相结合。这种方法使得生成长度可变的高质量视频变得容易控制，通过对人脸和身体的高级表示。与以往方法不同的是，我们的方法不需要为每个人进行训练，也不依赖于人脸检测和裁剪，生成完整的图像（而不仅仅是脸部或嘴唇），考虑到了正确合成沟通的人的广泛情景（例如，可见的躯干或不同的主体身份）。

我们在三个不同的基准上评估了VLOGGER，并展示了所提出的模型在图像质量、身份保留和时间一致性方面超越了其他最先进的方法。我们收集了一个新的多样化数据集MENTOR，比以前的数据集大一个数量级（2,200小时和800,000个身份，以及一个测试集，包含120小时和4,000个身份），我们在此数据集上进行了训练和消融我们的主要技术贡献。我们报告了VLOGGER在多个多样性指标方面的性能，显示我们的架构选择有利于在规模上训练公平和无偏见的模型。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621

VLOGGER

介绍：

VLOGGER