OccSora OccSora OccSora: 4D 占用生成模型作为自动驾驶的世界模拟器核心贡献 OccSora 与现有的世界模型不同，采用扩散（diffusion）基础的4D占用生成模型来更高效地模拟长期时间演变。我们引入了一个4D场景标记器，来获取紧凑的时空表示，并在长序列占用视频的高质量重建上表

OccSora

OccSora: 4D 占用生成模型作为自动驾驶的世界模拟器

核心贡献 OccSora 与现有的世界模型不同，采用扩散（diffusion）基础的4D占用生成模型来更高效地模拟长期时间演变。我们引入了一个4D场景标记器，来获取紧凑的时空表示，并在长序列占用视频的高质量重建上表现出色。随后，我们在这些时空表示上学习扩散变压器，并在轨迹提示的条件下生成4D占用视频。OccSora能够生成具有真实3D布局和时间一致性的16秒视频，展示了它对驾驶场景的时空分布的理解能力。

与现有方法的对比 OccSora通过基于轨迹生成4D视频的能力，有潜力作为自动驾驶决策的世界模拟器。

4D 场景标记器 该方法通过编码并压缩4D场景来提取高维特征，这些特征随后被解码以恢复场景的时空物理特性。

扩散基础的世界模型 该模型利用从4D场景标记器训练中获得的最佳代码本，将4D占用转换为一系列标记。然后，这些标记与自我车辆轨迹和随机噪声结合，作为输入进行去噪训练以获得生成的标记。

结果 OccSora能够生成符合物理逻辑的自动驾驶4D占用场景，并根据不同轨迹实现可控场景生成。

4D 占用生成：通过压缩长视频序列以获取时空场景表示的重建。
轨迹视频生成：基于不同输入轨迹（如直行、右转、不动）进行4D占用生成，确保场景与轨迹的一致性。
场景视频生成：在轨迹控制下生成多样性连续场景，展示场景多样性和轨迹控制的稳定性。

OccSora 的开发团队包括来自北航智能交通系统国家重点实验室、加州大学伯克利分校以及清华大学自动化系的研究人员。

请访问相关论文和代码了解更多详细信息。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621

OccSora

介绍：

OccSora