原文链接:https://vedder.io/misc/state_of_robot_learning_dec_2025.html

作者介绍

基本上,目前(2025 年 12 月)所有机器人学习系统都是纯粹的行为克隆(BC,也称为模仿学习)系统。人类提供(接近)最优的任务演示,机器学习模型则尝试模仿这些动作。形式上,策略 π 以监督的方式进行训练——给定机器人的状态 s (即摄像头图像、机器人关节角度以及可能的任务描述文本),π(s) 预测已演示的动作 a (通常是一个动作数据块,例如接下来的大约 50Hz 的秒数)。

图片

本文档旨在描述现代生物认知技术栈的构成,以及其不足之处和(不完整/笨拙的)变通方案。值得注意的是,它侧重于相关的问题定义和数据来源,而非模型架构等看似不那么重要的细节。随后,它旨在解释人们正在考虑的其他未来方法,以及阻碍它们成为主流方法的因素。最后,它对机器人学习的未来进行了一些预测,并为具身人工智能领域的“实干家”们提供了一些指导建议。

2025 年机器人学习栈

收集人类专家演示

首先,要进行行为克隆,你需要有待克隆的数据。这些数据来自人类演示以及各种其他来源。

主从遥操(GELLO,ALOHA)

人类使用控制器(领导者)直接远程操作完整的机器人(跟随者)。这可以通过机器人设置的完整副本来实现或更小、更轻的缩小版。

优点:

  1. 跟随机器人配备了完整的传感器套件,可以记录所有 s

  2. 所有演示在运动学上都是可行的,因为它们都是在机器人上执行的。

缺点:

  1. 通常比人类直接用手完成任务慢得多 (慢可达 10 倍!)。

  2. 操作员需要数周的练习才能熟练掌握,从而使数据可用于培训。

  3. 需要现场配备完整的机器人来采集数据——规模化采集需要大量的生产和资金投入。

智能演示手套(通用操作界面)

人类并非完全是领导者或追随者,而是握持设备(例如通用操作界面)他们手持这些设备,并使用这些设备来执行任务。末端执行器与机器人匹配,机器人上还搭载了一套廉价的传感器套件,用于尝试重建 s 。设备执行 SLAM 以获取末端执行器在任务空间中的位姿,以便后续可以使用 IK 来估计完整的关节状态。

优点:

  1. 操作员学习速度更快

  2. 更快的演示

  3. 大规模部署成本更低(例如通用型)

缺点:

  1. 对 s 和 a 进行噪声重构,会引入域间隙,这可能会严重损害策略性能。

  2. 本体感觉和动作需要根据 SLAM 对末端执行器姿态的估计来推断。

  3. 所有摄像头拍摄的图像都显示人手拿着设备,但推理时机器人看到的却是机械臂。

  4. 无法保证运动动力学可行性——在演示过程中,人可能会将手臂伸到工作空间之外,或者用手臂做出机器人无法做到的姿势。

直接的人体演示

YouTube 和其他视频平台拥有大量人类执行各种任务的数据。同样,许多工厂也需要工人进行各种灵巧操作,而这些工人可以通过佩戴摄像头来记录他们的工作情况,从而提供海量数据。

优点:

  1. 最容易获取的数据源

  2. 海量多样化数据

  3. 以人类全速

缺点:

  1. 重建 s 和 a 存在巨大差距

  2. 状态可能并非以第一人称视角呈现,或者视角不同,从而造成巨大的状态认知差距。

  3. 动作必须完全从原始数据中推断出来,很可能是通过来自另一个模型(例如骨骼追踪器/人手追踪器)的伪标签过程来实现的。

  4. 如果没有完整的人类自由度,轨迹很可能无法准确预测。由于躯干倾斜和重心转移,运动动力学上是可行的。

行为克隆(OOD 状态)的难题

行为克隆的原理听起来很简单——监督 π(s) 来预测 a 。

然而,即使拥有非常干净的示范数据,这些策略仍然会超出适用范围。这有几个原因:

  1. 现实世界永远不会与训练数据完全匹配;即使在同一个站点,光照、背景场景或其他干扰因素的微小变化也会改变状态 s 中的信息,进而影响状态 a 的预测。

  2. 下一步具体该做什么(例如展开一件衬衫)本身就存在不确定性——这既源于 s 固有的部分可观察性(例如,无法看到皱巴巴的衬衫内部的褶皱),也源于演示者行为分布固有的多模态性。

  3. 模型对其行为存在预测误差;因为 π(s) 正在做出关于状态 a 的一系列决策反过来又会影响下一个状态 s' ,这种误差会随着递归的展开而不断累积。

应对这些挑战需要做出设计选择,包括模型本身及其训练数据。建模选择至关重要——你需要数据驱动的先验知识和能够处理动作多模态的模型类别——但已有大量文献对此进行了阐述,而且模型训练所用的数据分布似乎更为重要。

如第 3 点所述,简单地使用专家演示数据训练这些模型会导致推理过程中预测误差的累积,最终导致模型偏离分布,进入从未见过的状态。虽然视觉学习模型(VLM)强大的视觉先验信息有助于模型泛化到新的状态,但仍然会存在模型失效的情况。

解决分布外状态的性能问题(通过将它们纳入分布)

这就是为什么仅仅依靠专家人类数据进行训练是不可取的!除了这些简单的任务演示之外,至关重要的是训练模型如何摆脱这些失败状态——即所谓的“DAgger”风格方法。构建这些数据的细微差别在于——你需要训练你的模型来离开这些不良状态,但你也不希望意外地训练出进入这些不良状态的行为,以免它模仿这些数据并故意进入这些不良状态。正确做法意味着精心整理你的恢复数据。

构建 DAgger 数据集是一个迭代过程,而且是一门艺术。你需要针对特定任务训练模型,观察其失效模式,构建新的数据集来尝试解决这些失效模式,然后重新训练,如此反复。这是一个繁琐的过程,需要耗费大量时间,需要非常聪明且富有洞察力的人员反复解决各种问题。在此过程中,你会逐渐对策略及其问题有所了解。由于需要快速迭代,这通常是在预训练的基础策略之上进行的后训练步骤。理想情况下,基础策略已经积累了相当多的任务数据,因此它已经基本了解自己的工作内容。

这种挫败感还体现在,你通过任务迭代积累的经验和技巧可能会被基础策略的新预训练完全抹杀,有时还会出现一组新的(但希望规模小得多的)失效模式。DAgger 数据可以用于预训练,并且与数据规模相结合,通常能带来更高质量的预测和更少的失效。只要在数据迭代上投入足够的精力,策略就能变得异常稳健。

随着这些策略变得更加稳健,评估其性能也需要花费更多时间。如果你的策略通常每 15 秒失败一次,你只需要几分钟的评估,比较训练运行 A 和 B 的结果,就能了解其性能。但如果你的策略两次失败之间间隔数分钟甚至数小时,你就需要花费大量时间进行评估才能获得任何相对信息。因此,寻找离线指标(例如 Generalist 博客文章中提到的验证均方误差 (MSE))似乎很有吸引力,但经验表明,这些离线指标与机器人上的性能之间相关性很差。

加快行为克隆策略的实施(这很难!)

DAgger 解决了鲁棒性问题,避免灾难性故障可以加快完成任务的平均时间,但它并不能提高速度。给定一个数据集,你可以舍弃除最快演示之外的所有演示(这会损失巨大的数据规模,并可能损害鲁棒性),或者以速度为条件,但这些都无法实现比人类更快的演示性能。

另一个技巧是简单地以高于实时的速度执行策略操作(例如,以 70Hz 的速度执行 50Hz 的控制),但这会给你的底层控制堆栈带来压力,并在与世界物理交互时导致不正确的行为(例如,等待一件衣服在被甩到空中后平放在桌子上)。

超越Behavior Cloning Stack

2025 BC 的数据栈有点糟糕。它不仅受限于数据规模,难以进行概括,还受限于提供演示的数据收集者的速度,以及使用 DAgger 处理任何故障的数据专家的效率(和品味)。

理想情况下,我们希望机器人系统能够自我改进:

  1. 他们收集自己的数据,以便从中学习和改进。

  2. 它们可能会陷入糟糕的状态,但它们可以通过探索来逃脱,然后自动学习如何再次避免陷入那种糟糕的状态。

  3. 它们可以自动变得更快,在它们所代表的任务中变得超人。

强化学习似乎符合这一要求。强化学习在机器学习领域取得了巨大的成功,人们很容易认为我们可以将同样的技巧直接应用到机器人领域。然而,尽管尝试了多种方法,但遗憾的是,目前尚未实现。

图片

LLM 中的RL

低层机器人与机器人技术有两个重要的区别:

  1. LLM 可以从同一状态 s 无限次地推出。

  2. LLM以非常强大的基础政策为基础。

由于这两个因素,在线的、基于策略的强化学习成为可能。策略可以直接或在经过一些专家演示的监督式微调后,从给定状态 s 开始获得非零的成功率。这使得 LLM 可以简单地从 s 开始进行数百或数千次的探索,从环境中获得(稀疏的)奖励,并直接更新其策略。

重要的是,这个过程避免了对反事实进行臆测。通过从 s 出发推导出许多不同的轨迹,它避免了对“如果……会怎样”的臆测,而是直接从其已有的可靠预测中获取环境反馈。

在现实世界中,机器人技术并不具备这些优势。假设在“清洁厨房”任务开始时,厨房处于凌乱状态 s ,我们既无法轻松地完美复制厨房的杂乱程度数百次,也没有足够强大的基础模型来可靠地以一定的成功率彻底清洁厨房。

因此,我们要么需要利用模拟,以便能够可靠地重建 s 任意多次(并承受模拟与现实之间的差距),要么需要能够在仅给定来自真实状态 s 的一次真实展开的情况下,对反事实问题产生良好的答案。

RL  in Sim

在逻辑学习模型(LLM)中,不存在模拟与现实之间的差距——训练期间交互的环境与推理时遇到的环境完全相同。然而,在机器人领域,我们的模拟器只是真实世界的仿制品,而且往往效果不佳。模拟器的物理模型较为简单,需要进行数值估算来处理多个碰撞体,必须选择具有不同权衡取舍的接触模型,对非刚体物体的模拟效果差,并且在模拟与现实之间存在较大的视觉差异。

由于这些原因,完全在模拟环境中训练的策略在迁移到现实世界时表现非常差。领域随机化,即显著改变模拟器的参数,有所帮助,拥有高度结构化的视觉输入表示(例如扫描点)也有帮助,但运动之外这在机器人领域取得了有限的成功。

目前,“世界模型”的研究正在进行中,它实际上是一种可学习的模拟器。一个主要的希望在于,与需要知道给定状态下最优动作的策略不同,世界模型只需要模拟给定状态和动作下的动态过程。在具有结构的领域(例如具有物理可组合交互规则的现实世界)中,任何状态-动作转换数据,无论来自最优策略还是随机策略,似乎都有助于学习一般动态,从而有望构建一个优秀的通用世界模型。尽管如此,就目前而言,我还没有发现任何能够很好地模拟我们所关注的、用于灵巧操作的环境交互动态的研究成果。

RL In Real

使用真实数据可以避免模拟与现实之间的差距,这也是我们当初决定开展业务连续性研究的原因。然而,直接从自身政策实施中吸取经验教训并加以改进,仍然面临诸多挑战。

强化学习改进循环的目标是提高相对较好的算法的权重。采取行动并减轻相对较差的行动的权重。要知道一项行动是否无论效果好坏,我们都需要回答反事实问题;正如我们在 LLM 部分讨论的那样,我们不能简单地从同一状态反复运行策略,尝试一系列看似合理的动作来评估动作 a 与 a' 的相对性能。相反,我们需要某种系统来模拟这种情况;要么使用一个直接估计折扣奖励 Q(s, a) 的 Q 函数,要么需要一些关于状态转移动态 (s, a) → s' 以及附近状态价值 V(s') 的知识。

值得注意的是, Q 和 V 都是另一种名称的世界模型;它不像你可能想象的那样,通过学习模拟器来预测未来的某个完整状态,而是嵌入了大量关于如何在未来与世界的互动中做出良好决策的长期信息,最终将如何达到目标。

正如你可能想象的那样,这也相当具有挑战性,学习良好的 Q 或 V 函数是一个开放的研究领域。最近,《Physical Intelligence》发表了 π_{0.6}^*,该方法执行优势加权回归(BC)的变体(但不是对每个转换赋予相同的权重,而是赋予其 Q(s, a) - V(s) 的权重),结果表明,与在相同数据上执行简单的 BC 相比,该方法略有改进。然而,在许多任务中,该策略也需要人工 DAgger 数据,而且显然它并非万能灵药。现实世界的强化学习。在构建良好的强化学习模型方面,还有很多工作要做。可靠的 Q 和 V 函数,使其在分布之外也能良好工作,既不严重高估也不严重低估它们的真实价值。

预测与建议

以下是一些关于机器人学习未来的预测:

  1. 最多两年内,VLA(例如 π_0 )将被视频模型骨干网取代。

  2. 最多 10 年内,世界模型将能够很好地模拟一般的开放世界互动,我们将利用这些模型进行政策提取,作为政策培训的一部分。

  3. 传统的模拟/视频游戏引擎将成为世界模型的数据生成器,但它们的核心是端到端学习。

  4. (接近)专家的数据收集对于微调这些世界模型仍然至关重要。

  5. 在真实机器人上进行实际测试,对于最终实现该机器人超人的性能仍然至关重要。

为了了解该领域的发展方向,许多人向我咨询如何创建“工具型”初创公司,以从Embodied AGI的竞争中获利。我认为:

  1. 图片

    数据标注是一种商品,本质上是人力套利,而非技术博弈。你需要比 Scale AI 更高效地运营。

  2. 预训练数据销售也是一种营销手段 , 需要证明你的数据确实有助于提升客户模型的性能。这既是一个运维问题,也是一个技术问题,我们知道并非所有机器人数据都能带来帮助 。

  3. 评估工作虽然是瓶颈,但对模型改进流程至关重要,因此必须在内部完成。这项工作不能外包给第三方。

  4. 数据平台并非适用于自动驾驶汽车的“一刀切”方案,因为在自动驾驶汽车领域,所有车辆都使用大致相同的传感器来解决相同的问题。对于Embodied AGI而言,也不会存在这样的方案。

我认为未来唯一稳固的基础是:人工演示仍然至关重要。如果你能构建一套软硬件结合的演示系统(无论是 GELLO 还是 UMI),能够有效解决上述痛点 ,并且通过训练证明该系统能够生成有效的策略 ,那么即使你不是直接的收购目标,你也会成为一个极具吸引力的商业伙伴。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐