Designer Watches: 跨境电商资讯：伯克利团队发布最新论文！用

2024-03-06

一台人形机器人在人行道、混凝土、沥青、广场和沙路上"散步"，这不是科幻电影的场景，而是已经发生在旧金山街头的真实事件。

这一人形机器人项目也引起了Sora团队的注意。

"不可思议的成果！"Sora负责人之一Bill Peebles在X 转发了这条内容，难掩惊讶。另一位核心作者Tim Brooks也评论道："Ilija Radosavovic的惊人成果把AI带入了真实世界。"

Ilija Radosavovic（伊利亚·拉多萨沃维奇）是该人形机器人项目的负责人之一，他是加州大学伯克利分校博士生，曾在Meta的AI实验室FAIR做研究工程师。

这篇论文名为《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic表示，论文的核心思想，就是把OpenAI训练ChatGPT时所用到的"预测下一个token"的思路，用在人形机器人的运动控制中。

这被称为"自回归生成式"路线，最大的特色是可以根据"Scaling Law"——扩大模型的参数、数据、算力来提升模型的效果，也被称为"暴力美学"。不过，对于"暴力美学"的前景，目前在业内存在一定的争议。

目前来看，Scaling Law已经先后突破了文本生成和视频生成，接下来又会突破人形机器人的运动控制吗？

1."暴力美学"解锁人形机器人？

这篇论文中，作者提出的核心问题是：

过去十年，深度学习浪潮下，大型神经网络已经在互联网多样化的数据集上有了大量训练成果，我们能否以类似的方式来学习强化大的感官和运动表示模型？

回溯机器人的发展历程，传统机器人的运动高度依赖于人工输入准确的预测接触点和执行器方向等信息。"拿杯子"这个动作对人类而言看似简单，但对机器人而言却是一个"大工程"。人类需要拆解动作，再告诉机器人每一个动作的具体细节，像这个动作的起点在哪里、手臂要如何移动等。

这种方法带来的问题是，机器人只能在人类规定的路径中较好地运动和控制肢体动作，但跳出模拟世界后，机器人在真实世界就手足无措了，这个问题可简单归类到学术领域所讨论的"泛化性"较差，不够通用等问题。

不只机器人，在人工智能符号主义学派的研究中，"泛化性"也是一个老大难的问题。而OpenAI发布的ChatGPT之所以惊艳，有一个核心原因就是其用暴力美学——叠加大量数据、算力、参数量，就让模型对新事物表现出了泛化性极佳的"智能涌现"。

如今，Ilija Radosavovic团队试图借鉴OpenAI在语言领域的做法，将现实世界中的仿人机器人控制视为一个"下一个token预测"问题，类似于语言中预测下一个单词，来实现人形机器人的运动控制。

该模型是一个通过自回归预测训练的causal transformer（因果转换器）。

由于训练数据的多模态特性，该研究以模态对齐的方式进行预测，对于每个输token，模型能够预测相同模态的下一个token。这个方法让模型更加通用，能够利用缺失模态的数据，比如没有动作的视频轨迹。

在视频中，一个仿人形的双足机器人已经实现"零样本学习"，正在旧金山"闲逛"。

该模型即使只在27小时的行走数据上训练，也能转移到现实世界，并且能够泛化到训练期间未见过的命令，比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

仿人运动作为下一个标记预测

该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题。

与语言类似，研究人员训练了一个通用的Transformer模型来自回归地预测移位的输入序列。与语言不同，机器人数据是高维的，包含多个感官模态和动作。

研究人员将输入轨迹token化，并训练一个causal transformer（因果转换器）模型来预测移位的标记（shifted token）。

重要的是，模型能够预测完整的输入序列，包括感官和动作标记。该团队是在建模联合数据分布，而不是条件动作分布。

一个通用的缺失数据处理框架

该研究假设每个轨迹都是观察和动作的序列，论文展示了该模型如何泛化到具有缺失模态的序列，比如从没有动作的人类视频中提取的轨迹。

假设已经获取一个没有动作的观察轨迹，该团队的关键洞察是，可以将没有动作的轨迹视为带有动作遮蔽的常规轨迹。这个轨迹具有与常规动作轨迹相同的格式，因此可以统一处理。该方法忽略了对应于输入遮蔽部分的预测的损失。

构建轨迹数据集

该团队构建了一个轨迹数据集用于训练模型，有四大数据来源：先前的神经网络策略，基于模型的控制器，人类运动捕捉，以及YouTube上的人类视频。

不同数据源的插图如下：

该团队构建了一个来自四个不同来源的轨迹数据集

不同来源的数据会提供不同维度的信息：

神经网络策略的轨迹提供了包括动作在内的完整信息；

基于模型的控制器的轨迹包含了来自相同机器人形态的观察，但没有动作；

人类运动捕捉的轨迹包含不同的形态，没有动作；

最后，从YouTube上的人类视频中恢复的轨迹可以被视为大规模但嘈杂的运动捕捉。

按照上述策略训练的机器人已经可以行走在不同的表面上，包括人行道、混凝土、沥青、广场和沙土路。

有没有实现ScalingLaw？

论文中也提到了"Scaling"（扩展或缩放）相关的内容，提到模型.........

一台人形机器人在人行道、混凝土、沥青、广场和沙路上"散步"，这不是科幻电影的场景，而是已经发生在旧金山街头的真实事件。这一人形机器人项目也引起了Sora团队的注意。"不可思议的成果！"Sora负责人之

1月意大利旅游：https://www.vstour.cn/t/1月意大利旅游.html
1月邮轮特价：https://www.vstour.cn/t/1月邮轮特价.html
1月越南旅游：https://www.vstour.cn/t/1月越南旅游.html
1月越南旅游团：https://www.vstour.cn/t/1月越南旅游团.html
1月在美国旅游：https://www.vstour.cn/t/1月在美国旅游.html
1月札幌旅游：https://www.vstour.cn/t/1月札幌旅游.html
护肤彩妆界新贵Glamlite 如何在TikTok上实现月销超110万美金？：https://www.goluckyvip.com/news/156177.html
伯克利团队发布最新论文！用训练GPT的方法训练人形机器人：https://www.kjdsnews.com/a/1805483.html

Designer Watches