AI新工具
banner

RoboDreamer


介绍:

RoboDreamer是一种通过分解视频生成以学习组合世界模型,实现机器人想象力的方法。









RoboDreamer

RoboDreamer是一种创新的方法,通过因子分解视频生成来学习组合式的世界模型,用于机器人“想象”。该方法的主要贡献在于解决现有文本到视频模型的泛化问题,即这些模型只能合成与训练时语言指示相似的视频。RoboDreamer利用语言的天然组合性,将指令解析为一组低级别的原语,并以此为条件生成视频。这种因子分解方法自然地实现了组合泛化,使得模型可以根据已见过的组件组合生成新的自然语言指令。此外,该方法还允许添加额外的多模态目标,如目标图像,从而在给定自然语言指令和目标图像的情况下生成所需的视频。

RoboDreamer在RT-X上的实验表明,它能够成功合成未见过目标的视频计划,并在模拟环境中实现机器人的成功执行。相比于单一的基线方法,该方法明显表现优越。

RoboDreamer整体框架利用语言的组合性解析指令,并将生成过程因子分解为多个组件,从而适用于新语言和多模态输入的组合。通过这些技术改进,RoboDreamer使机器人在不见任务中的表现大大提升,并展示了更高的生成视频的能力和灵活性。

实验部分展示了RoboDreamer在见过任务、未见过任务、多模态生成(目标图像和目标草图)、RLBench任务、部分描述和其他数据集上的性能和效果,验证了其广泛的应用前景。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621