VASA-1
单张人像照片 + 语音音频 = 超逼真的说话人脸视频,具有精确的口音同步、逼真的面部行为和自然的头部运动,实时生成。
这是一个框架,用于在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。我们的首款型号 VASA-1 不仅能够产生与音频完美同步的嘴唇运动,而且还能够捕捉大量面部细微差别和自然的头部运动,从而有助于感知真实性和生动性。核心创新包括在面部潜在空间中工作的整体面部动力学和头部运动生成模型,以及使用视频开发这种富有表现力和解开的面部潜在空间。通过广泛的实验,包括对一组新指标的评估,我们表明,我们的方法在各个维度上都明显优于以前的方法。我们的方法不仅可以提供具有逼真的面部和头部动态的高视频质量,而且还支持以高达 40 FPS 的速度在线生成 512x512 视频,启动延迟可以忽略不计。它为与模拟人类对话行为的栩栩如生的化身进行实时互动铺平了道路。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621