See3D
See3D 是一种可扩展的视觉条件多视图扩散模型,旨在通过海量互联网视频数据进行开放世界的三维创建。其核心理念是“你看到的,你就能得到”,意味着模型能够仅通过分析视频中的视觉内容来学习三维知识。为实现这一点,See3D 引入了一种创新的数据策划流程,通过自动过滤多视图不一致性和不足观测,构建了一个名为 WebVi3D 的大型多视图图像数据集,包含来自 1600 万个视频片段的 3.2 亿帧图像。
See3D 解决了一项复杂的挑战,即在没有显式三维几何或相机位姿标注的情况下,从视频中学习通用的三维先验知识。模型通过引入时变噪声生成的纯 2D 诱导视觉信号,消除了对位姿条件的依赖,从而实现高保真度的三维生成。
使用场景
See3D 的应用场景非常广泛,包括但不限于:
- 对象和场景级三维创建: 支持从稀疏视角生成三维模型或从文本/图像生成三维对象。
- 三维编辑: 允许用户对生成的三维模型进行修改和编辑。
- 高效的三维重建: 在单视图和稀疏视图重建基准中表现优异,展示了显著的零-shot 和开放世界生成能力。
- 生成高质量的三维网格或渲染图像: 可以与高斯点技术结合,提取网格或生成高质量的图像。
通过 See3D,用户可以在不需要昂贵的三维数据集的情况下,利用海量视频数据进行灵活且高效的三维创作。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621