Human4DiT
Human4DiT是一种能够生成自由视角动态人类视频的方法。其核心是基于4D扩散变换器的框架,该框架采用级联结构,包括2D图像变换器、视角变换器和时间块。
方法概述:
- 输入:方法的输入包括参考图像、动态的SMPL序列和相机参数。
- 初始处理:从生成的噪声潜在表示开始,通过多种条件对其进行去噪。
- 2D图像变换器块:首先,设计了2D图像变换器块来捕捉每一帧内的空间自注意力。同时,参考图像中提取的人类身份信息也被注入以确保身份一致性。
- 视角变换器块:接下来,使用视角变换器块来学习不同视角间的对应关系。
- 时间变换器块:最后,采用时间变换器来捕捉带有时间嵌入的时间相关性。
结果展示:
- 单目视频:展示了从单视角输入生成的动态人类视频。
- 自由视角视频:展示了生成的可以从不同视角观看的动态人类视频。
- 静态3D视频:展示了静态的3D人类视频生成结果。
比较:
- 单目视频比较:与其他方法在单视角视频生成方面进行比较。
- 多视角视频比较:与其他方法在多视角视频生成方面进行比较。
- 静态3D视频比较:与其他方法在静态3D视频生成方面进行比较。
- 自由视角视频比较:与其他方法在自由视角视频生成方面进行比较。
总结来说,Human4DiT利用高级的扩散变换器结构,通过整合空间、视角和时间信息,有效地生成实现了高度一致性和质量的自由视角动态人类视频。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621