AI新工具
banner

OccSora


介绍:

OccSora是一种用于自动驾驶场景模拟的4D占用生成模型。









OccSora

OccSora: 4D 占用生成模型作为自动驾驶的世界模拟器

核心贡献 OccSora 与现有的世界模型不同,采用扩散(diffusion)基础的4D占用生成模型来更高效地模拟长期时间演变。我们引入了一个4D场景标记器,来获取紧凑的时空表示,并在长序列占用视频的高质量重建上表现出色。随后,我们在这些时空表示上学习扩散变压器,并在轨迹提示的条件下生成4D占用视频。OccSora能够生成具有真实3D布局和时间一致性的16秒视频,展示了它对驾驶场景的时空分布的理解能力。

与现有方法的对比 OccSora通过基于轨迹生成4D视频的能力,有潜力作为自动驾驶决策的世界模拟器。

4D 场景标记器 该方法通过编码并压缩4D场景来提取高维特征,这些特征随后被解码以恢复场景的时空物理特性。

扩散基础的世界模型 该模型利用从4D场景标记器训练中获得的最佳代码本,将4D占用转换为一系列标记。然后,这些标记与自我车辆轨迹和随机噪声结合,作为输入进行去噪训练以获得生成的标记。

结果 OccSora能够生成符合物理逻辑的自动驾驶4D占用场景,并根据不同轨迹实现可控场景生成。

  1. 4D 占用生成:通过压缩长视频序列以获取时空场景表示的重建。
  2. 轨迹视频生成:基于不同输入轨迹(如直行、右转、不动)进行4D占用生成,确保场景与轨迹的一致性。
  3. 场景视频生成:在轨迹控制下生成多样性连续场景,展示场景多样性和轨迹控制的稳定性。

OccSora 的开发团队包括来自北航智能交通系统国家重点实验室、加州大学伯克利分校以及清华大学自动化系的研究人员。

请访问相关论文和代码了解更多详细信息。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621