人形机器人“走进”现实作者：小麦AIGC 来源：小麦AIGC 是字面意思，真的走进现实。先看一段来自伯克利的视频：通过视频貌似看不出什么神奇的地方。但如果告诉你，这个人形机器人是自己学会的如何走路，没有任何人在背后控制，是不是很震撼。它不需要人告诉它哪里是路、是否可

人形机器人“走进”现实

作者：小麦AIGC 来源：小麦AIGC

是字面意思，真的走进现实。

先看一段来自伯克利的视频：

通过视频貌似看不出什么神奇的地方。

但如果告诉你，这个人形机器人是自己学会的如何走路，没有任何人在背后控制，是不是很震撼。

它不需要人告诉它哪里是路、是否可以走，它真正自己就可以做决策，可以举一反三，研究团队还说它自己学会了倒退行走。

人形机器人运动作为下一个token预测

我翻了翻研究团队写的论文，发现了其中的原理。

论文名称很吸睛，叫《Humanoid Locomotion as Next Token Prediction》，即人形机器人运动方式作为下一个token预测。

经常关注AI技术的小伙伴知道，ChatGPT以及文心一言等背后大语言模型的最基本原理就是通过预测下一个字词（专业上称为token）来实现问题回答、内容生成。

今天，研究人员将文本预测的背后技术Transformer应用到了现实世界的物理控制。

简单来说，人形机器人有两类基本行为：观察和行动。

该研究从机器人控制器、人体动作捕捉数据、youtube上的视频等来源获取数据，用来训练Transformer模型，从而实现预测下一个观察或行动。

并且用来训练的数据量越大，效果会越好，具有很好的缩放特性（scaling），上面视频中运动效果仅使用了27小时的步行数据进行训练。

这项研究的最大价值是验证了通过模仿大量的走路数据，来教会机器人在现实世界中完成复杂的控制任务是非常有希望的一个方向。

Sora模拟世界

讲到这里我想到了Sora。

简单来说，Sora是通过Transformer模型预测下一个patches（图像块）来实现的生成效果。

Sora可以生成1分钟的非常连贯的逼真视频，远超其他视频模型。

Sora之所以最近引起轰动，并不仅仅是因为生成视频更长，而是因为Sora生成的视频跟真实世界中事物之间交互的效果非常接近。

它不仅能够模拟物体和场景的动态变化，还能够在一定程度上模拟物体之间的相互作用和环境响应。

尽管它在模拟物理交互（如玻璃破碎）等方面还存在局限性，但Sora的出现表明，随着模型规模的继续扩大，模拟真实世界将不再遥远。

AGI的曙光

这也正是为什么我在看到本篇开头视频时候感到震撼的原因：借助机器人，它真切地让我感受到了生成式AI对现实世界的控制力。

当真实世界被数学建模，当机器人可以自主学习自主进化……

我们似乎看到了通用人工智能（AGI）的曙光。

参考资料：

END

如果喜欢上面的内容，请关注小麦AIGC，最新内容每日更新；如有好的选题建议，也可以给我们发消息哦。

点个在看，你最好看

可关注我们的公众号：每天AI新工具