AI新工具
banner

Human4DiT


介绍:

Human4DiT是一种基于4D扩散变换器的自由视角动态人视频生成方法。









Human4DiT

Human4DiT是一种能够生成自由视角动态人类视频的方法。其核心是基于4D扩散变换器的框架,该框架采用级联结构,包括2D图像变换器、视角变换器和时间块。

方法概述:
  1. 输入:方法的输入包括参考图像、动态的SMPL序列和相机参数。
  2. 初始处理:从生成的噪声潜在表示开始,通过多种条件对其进行去噪。
  3. 2D图像变换器块:首先,设计了2D图像变换器块来捕捉每一帧内的空间自注意力。同时,参考图像中提取的人类身份信息也被注入以确保身份一致性。
  4. 视角变换器块:接下来,使用视角变换器块来学习不同视角间的对应关系。
  5. 时间变换器块:最后,采用时间变换器来捕捉带有时间嵌入的时间相关性。
结果展示:
  1. 单目视频:展示了从单视角输入生成的动态人类视频。
  2. 自由视角视频:展示了生成的可以从不同视角观看的动态人类视频。
  3. 静态3D视频:展示了静态的3D人类视频生成结果。
比较:
  1. 单目视频比较:与其他方法在单视角视频生成方面进行比较。
  2. 多视角视频比较:与其他方法在多视角视频生成方面进行比较。
  3. 静态3D视频比较:与其他方法在静态3D视频生成方面进行比较。
  4. 自由视角视频比较:与其他方法在自由视角视频生成方面进行比较。

总结来说,Human4DiT利用高级的扩散变换器结构,通过整合空间、视角和时间信息,有效地生成实现了高度一致性和质量的自由视角动态人类视频。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621