【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型（一）

soulmode

210人浏览 · 2025-05-06 23:12:06

soulmode · 2025-05-06 23:12:06 发布

系列文章目录

【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型（二）

文章目录

系列文章目录

@[TOC](文章目录)

摘要

一、引言

二、相关工作

三、概述

四、π0 模型

五、数据收集与训练方案

A. 预训练和后训练

B. 语言和高级策略

C. 机器人系统细节

摘要

机器人学习具有巨大潜力，有望释放灵活、通用和灵巧机器人系统的全部潜能，并解决人工智能领域一些最深层次的问题。然而，将机器人学习提升到有效现实世界系统所需的通用性水平，在数据、泛化性和鲁棒性方面面临着主要障碍。在本文中，我们讨论了通用机器人策略（即机器人基础模型）如何能够应对这些挑战，以及我们如何能够为复杂且高度灵巧的任务设计有效的通用机器人策略。我们提出了一种新颖的流匹配架构，该架构构建于预训练的视觉语言模型（VLM）之上，以继承互联网规模的语义知识。然后我们讨论了该模型如何在来自多个灵巧机器人平台（包括单臂机器人、双臂机器人和移动操作器）的大型多样化数据集上进行训练。我们评估了我们的模型在通过直接提示执行任务、遵循来自人类和高级VLM策略的语言指令以及通过微调获取新技能方面的能力。我们的结果涵盖了各种各样的任务，例如折叠衣物、清洁桌子和组装盒子。

一、引言

一个人应该能够换尿布、策划入侵、屠宰猪只、驾驶船只、设计建筑、写十四行诗、平衡账目、砌墙、接骨、安慰垂死之人、接受命令、下达命令、合作、独立行动、解方程、分析新问题、抛撒肥料、编写计算机程序、烹饪美味佳肴、高效战斗、英勇赴死。
专业化是昆虫的特点。

罗伯特·A·海因莱因，《时间足够你爱》

人工智能系统形态各异，规模不一，从解决人类思维无法企及的复杂问题（例如预测蛋白质的构象[21]）的高度专业化系统，到能够根据文本提示生成逼真的高分辨率图像或视频的系统[40]。然而，人类智能最超越机器智能的方面是其通用性：即在不同物理环境中解决各种任务，同时智能地响应环境约束、语言指令和意外扰动的能力。或许，人工智能在这类通用性方面最切实的进展体现在大型语言模型和视觉语言模型[1, 48]上：这些系统在来自网络的大量且非常多样化的图像和文本语料库上进行预训练，然后使用更精心策划的数据集进行微调（“对齐”），旨在引导出期望的行为模式和响应能力。尽管这些模型已被证明展现出广泛的指令遵循和问题解决能力[53, 27]，但它们并不像人类那样真正置身于物理世界，并且它们对物理交互的理解完全基于抽象描述。如果这类方法要在实现具备人类那种物理情境通用性的人工智能系统方面取得切实进展，我们将需要使用物理情境数据——即来自具身机器人智能体的数据——来训练它们。

能够执行各种机器人行为的灵活通用模型具有巨大的实际意义，但它们也可能为当今机器人学习面临的一些最严峻挑战（例如数据可用性、泛化性和鲁棒性）提供解决方案。在自然语言[1]和计算机视觉[39]领域，在多样化多任务数据上预训练的通用基础模型往往优于狭隘定制和专门化的解决方案。例如，如果目标是识别照片中的鸟类，那么在许多不同的图像-语言关联上进行预训练，然后针对鸟类识别任务进行微调或提示，可能比仅在鸟类识别数据上训练更为有效。类似地，我们可能会发现，对于有效的专用机器人系统，首先在高度多样化的机器人数据上进行预训练，然后针对期望的任务进行微调或提示，可能更为有效。这可以解决数据稀缺的挑战，因为通用模型可以利用更多的数据来源——包括来自其他任务、其他机器人甚至非机器人来源的数据——并且它可能解决鲁棒性和泛化性方面的挑战，因为多样化的数据展现了更广泛的观察和动作覆盖范围，提供了在更狭隘的专业数据中可能不存在的各种场景、校正和恢复行为。因此，采用大规模预训练方法进行机器人学习，有潜力解决该领域的许多挑战，并使实用的学习型机器人成为现实，同时加深我们对人工智能最深层问题的理解。

然而，开发此类通用机器人策略——即机器人基础模型——涉及许多主要挑战。首先，任何此类研究都必须在非常大的规模上进行，因为大规模预训练的全部益处通常在较小规模上并不存在[54]。其次，它需要开发合适的模型架构，这些架构能够有效利用多样化的数据来源，同时能够表示与复杂物理场景交互所必需的复杂而微妙的行为。第三，它需要合适的训练方案。这可能是最重要的组成部分，因为近期在自然语言处理和计算机视觉领域大型模型的许多进展都严重依赖于管理预训练和后训练数据的精细策略[35]。

图1：我们的通用机器人策略使用预训练的视觉语言模型（VLM）作为骨干，以及包含各种灵巧操作任务的多样化跨具身数据集。该模型通过添加一个独立的动作专家来适应机器人控制，该专家通过流匹配产生连续动作，从而实现精确流畅的操作技能。然后，该模型可以直接用于根据提示执行任务，或者在高质量数据上进行微调以实现复杂的多阶段任务，例如折叠多件衣物或组装盒子。

在本文中，我们提出了一个原型模型和学习框架，我们称之为π0，它阐明了如何解决这三个瓶颈中的每一个。我们在图1中展示了我们的模型和系统。为了整合多样化的数据来源，我们首先利用预训练的视觉语言模型（VLM）来导入互联网规模的经验。通过将我们的模型建立在VLM之上，我们继承了语言模型和视觉语言模型的通用知识、语义推理和问题解决能力。然后，我们进一步训练我们的模型以整合机器人动作，将其转变为视觉-语言-动作（VLA）模型[7]。为了使利用各种多样化的机器人数据来源成为可能，我们采用跨具身训练[10]，其中来自多种机器人类型的数据被整合到同一个模型中。这些不同的机器人类型具有不同的配置空间和动作表示，包括单臂和双臂系统，以及移动操作器。此外，为了能够执行高度灵巧和复杂的物理任务，我们使用一种带有流匹配（一种扩散的变体）的动作分块架构[57]来表示复杂的连续动作分布[28, 32]。这使得我们的模型能够以高达50赫兹的频率控制机器人执行灵巧任务，例如折叠衣物（参见图1）。为了将流匹配与VLM相结合，我们使用一种新颖的动作专家，它用基于流的输出增强标准VLM。

与语言模型一样，我们模型的架构只是我们方法的一部分。为了灵活且鲁棒地执行复杂任务，我们需要合适的训练方案。我们的方案反映了在百亿亿次级语言模型和图像语言模型[1, 48]中常见的预训练/后训练分离，即模型首先在非常大且多样化的语料库上进行预训练，然后在更狭窄且更精心管理的数据上进行微调，以引导出期望的行为模式——在我们的案例中，即灵巧性、效率和鲁棒性。直观地讲，仅在高质量数据上训练不会教会模型如何从错误中恢复，因为在此类数据中很少见到错误。仅在质量较低的预训练数据上训练不会教会模型高效且鲁棒地行动。两者结合才能提供期望的行为：模型会尽可能尝试以类似于高质量数据的方式行动，但仍然拥有一系列恢复和纠正措施，可以在发生错误时部署。

我们工作的贡献包括一种基于VLM预训练和流匹配的新型通用机器人策略架构，以及对此类机器人基础模型的预训练/后训练方案的实证研究。我们评估了模型在不经修改的情况下通过语言指令执行任务的能力，通过对下游任务进行微调，以及与一个输出中间语言指令以执行复杂且时间跨度较长任务的高级语义策略相结合的能力。尽管我们的模型和系统利用了近期工作中提出的各种思想，但这些组成部分的组合是新颖的，并且实证评估表明其灵巧性和通用性水平显著超越了先前展示的机器人基础模型。我们通过在超过10,000小时的机器人数据上进行预训练，并针对各种灵巧任务进行微调来评估我们的方法，这些任务包括折叠衣物（参见图2）、清理桌子、将碗碟放入微波炉、将鸡蛋堆叠到蛋盒中、组装盒子以及将杂货装袋。

图2：π0 控制一个移动操作器来折叠衣物。我们的模型在来自7种不同机器人配置和68个任务的多样化数据上进行了预训练，然后可以直接提示或针对复杂的下游任务进行微调，就像这个衣物折叠策略一样，它从烘干机中取出衣物，将其装入洗衣篮，将洗衣篮拿到折叠台，然后折叠每一件衣物。

二、相关工作

我们的工作建立在近期大规模机器人学习以及多模态语言模型方法的基础之上。我们的工作与最近提出的视觉语言动作（VLA）模型最为相关，这些模型使用为机器人控制进行微调的预训练VLM [7, 24, 55]。此类模型采用自回归离散化来表示动作，其方式类似于文本标记。相比之下，我们的模型采用了一种新颖的设计，通过流匹配[32, 28]（一种扩散的变体[20, 46]）微调VLM以产生动作。这使我们能够处理高频动作块[57]（高达50赫兹）和高度灵巧的任务，我们证明这些任务对先前的自回归VLA [7]构成了重大挑战。这与许多近期关于用于动作生成的扩散模型的研究[9, 60]相似。与这些工作不同，我们的模型使用预训练的VLM骨干[5]。我们的贡献也从根本上是集成性的，专注于机器人基础模型的框架，不仅包括模型架构本身，还包括预训练方案、预训练和后训练阶段，以及一系列真实世界的实验。

在机器人控制之外，已经提出了许多将预训练语言模型与扩散相结合的模型[40, 41, 14]，包括专门混合扩散和自回归大型语言模型的模型[19, 29, 59]。此类模型通常关注图像生成，但我们的动作生成模型建立在许多先前提出的概念之上。与Zhou等人[59]类似，我们通过应用于单个序列元素的扩散式（流匹配）损失来训练我们的模型，以代替仅解码器转换器的标准交叉熵损失。与Liu等人[29]类似，我们对与扩散相对应的标记使用一组单独的权重。将这些概念整合到VLA模型中，我们引入了据我们所知第一个产生用于灵巧控制的高频动作块的流匹配VLA。

我们的工作也建立在先前大规模机器人学习研究的丰富历史之上。该领域的早期工作通常利用自监督或自主数据收集[26, 22, 8]，为诸如抓取[18, 37]或推动[56]等简单任务提供了易于处理的数据源，但缺乏更灵巧行为的复杂性。最近，已经为机器人控制收集了许多高质量的数据集，这些数据集能够实现广泛的泛化[23, 10, 52, 33, 34, 43, 13, 6]，但通常针对的是由物体重新定位和基本家具操作（例如，抽屉打开）组成的更简单的任务[31, 15]。更灵巧的任务已经在较小的规模上进行了研究，通常使用10个或100个训练轨迹[57]，相当于10小时或更少。由于我们的目标之一是研究复杂和灵巧的行为，因此我们利用了一个更大的数据集，包含大约10,000小时的演示，并辅以开源的OXE数据集[10]。据我们所知，就机器人数据量而言，这代表了迄今为止规模最大的机器人学习实验。在此规模上，我们表明更复杂的预训练/后训练方案非常有效——类似于大型语言模型使用的方案，预训练阶段赋予我们的模型广泛的知识基础，然后在后训练阶段使用更高质量的精选数据进行细化，以实现期望的行为。

我们展示的任务的复杂性显著超越了先前的工作。虽然最近的工作已经展示了一些更复杂和灵巧的行为，例如系鞋带[58]或烹饪虾[17]，但我们表明我们的框架可以学习非常长的任务，有时长达数十分钟，这些行为结合了物理灵巧性和组合复杂性。例如，我们的衣物折叠任务要求机器人操作各种可以从任何配置开始的衣物，并按顺序折叠多件物品。我们的餐桌清理任务需要辨别新物体（垃圾或餐具）的类别。我们表明，单个跨具身模型可以用作这些任务的基础模型。据我们所知，我们的工作展示了端到端机器人学习文献中最长的灵巧任务。

三、概述

我们在图3中概述了我们的模型和训练过程。在我们的训练框架中，我们首先组建一个预训练混合数据集，该数据集由我们自己的灵巧操作数据集（第五-C节）（在7种不同的机器人配置上为68个不同的任务收集）和整个OXE数据集[10]（包含来自22个机器人的数据）的加权组合构成。预训练阶段（第五-A节）还使用多样化的语言标签，结合了任务名称和片段注释（子轨迹的细粒度标签，通常长度约为2秒）。预训练阶段的目的是训练一个基础模型，该模型展现出广泛的能力和泛化性，但不必专门针对任何单个任务的高性能。这个基础模型可以遵循语言指令并以基本的熟练程度执行各种任务。对于复杂和灵巧的任务，我们随后采用后训练过程（第五-A节），该过程使用高质量的精选数据来使模型适应特定的下游任务。我们研究了使用少量到中等数量数据进行高效后训练，以及针对复杂任务（如折叠衣物和移动操作）使用更大数据集进行高质量后训练。

我们的模型（在第四节中描述）基于PaliGemma视觉语言模型[5]，然后我们使用我们的数据混合对其进行进一步训练。为了将基础的PaliGemma VLM转换为π0，我们添加了使用流匹配[32, 28]生成连续动作分布的动作输出。我们将在下一节中详细描述此设计。请注意，我们使用PaliGemma是为了方便，并且因为它相对较小的尺寸（这对于实时控制很有用），但我们的框架与任何基础的预训练VLM兼容。

图3：我们的框架概述。我们从一个预训练混合数据集开始，该数据集包含我们自己的灵巧操作数据集和开源数据。我们使用这个混合数据集来训练我们的流匹配VLA模型，该模型由一个较大的VLM骨干和一个较小的用于处理机器人状态和动作的动作专家组成。VLM骨干的权重从PaliGemma [5]初始化，提供了从大规模互联网预训练中学习到的表示。由此产生的π0模型可以用于控制具有不同动作空间的多种机器人形态，以完成各种各样的任务。

四、π0 模型

π0 模型，如图3所示，主要由一个语言模型 transformer 骨干网络构成。遵循标准的后期融合VLM方法[3, 11, 30]，图像编码器将机器人的图像观测嵌入到与语言 token 相同的嵌入空间中。我们进一步用机器人特定的输入和输出——即本体感受状态和机器人动作——来增强这个骨干网络。π0 使用条件流匹配[28, 32]来建模动作的连续分布。流匹配为我们的模型提供了高精度和多模态建模能力，使其特别适用于高频灵巧任务。我们的架构受到Transfusion [59]的启发，该模型使用多个目标训练单个 transformer，其中与连续输出对应的 token 通过流匹配损失进行监督，而与离散输出对应的 token 则通过交叉熵损失进行监督。在Transfusion的基础上，我们还发现，为机器人特定的（动作和状态）token 使用一组独立的权重可以提高性能。这种设计类似于具有两个混合元素的专家混合模型（mixture of experts）[45, 25, 12, 16]，其中第一个元素用于图像和文本输入，第二个元素用于机器人特定的输入和输出。我们将第二组权重称为动作专家。

形式上，我们希望对数据分布 $p(A_t|o_t)$ 进行建模，其中 $A_t = [a_t,a_{t+1},...,a_{t+H−1}]$ 对应于未来动作的一个动作块（在我们的任务中，我们使用 $H = 50$ ），而 $o_t$ 是一个观测。该观测包括多个RGB图像、一个语言指令以及机器人的本体感受状态，因此 $o_t = [I^1_t,...,I^n_t,ℓ_t,q_t]$ ，其中 $I^i_t$ 是第 $i$ 个图像（每个机器人有2或3个图像）， $ℓ_t$ 是一个语言 token 序列， $q_t$ 是一个关节角度向量。图像 $I^i_t$ 和状态 $q_t$ 通过相应的编码器进行编码，然后通过一个线性投影层投影到与语言 token 相同的嵌入空间中。

对于动作块 $A_t$ 中的每个动作 $a_{t'}$ ，我们都有一个相应的动作 token，我们将其输入到动作专家中。在训练期间，我们使用条件流匹配损失[28, 32]来监督这些动作 token：

$L^{\tau}(\theta) = \mathbb{E}_{p(A_t|o_t),q(A^{\tau}_t|A_t)}||v_{\theta}(A^{\tau}_t,o_t) - u(A^{\tau}_t|A_t)||^2,$

其中下标表示机器人时间步，上标表示流匹配时间步，且 $\tau \in [0,1]$ 。最近在高分辨率图像[14]和视频[38]合成方面的工作表明，当与简单的线性高斯（或最优传输）概率路径[28]（由 $q(A^{\tau}_t|A_t) = N(\tau A_t,(1−\tau)I)$ 给出）相结合时，流匹配可以实现强大的经验性能。在实践中，网络通过采样随机噪声 $\epsilon \sim N(0,I)$ ，计算“带噪动作” $A^{\tau}t = \tau A_t + (1 −\tau)\epsilon$ ，然后训练网络输出 $v_{\theta}(A^{\tau}_t,o_t)$ 以匹配去噪向量场 $u(A^{\tau}_t|A_t) = \epsilon - A_t$ 来进行训练。动作专家使用完整的双向注意力掩码，因此所有动作 token 都相互关注。在训练期间，我们从一个beta分布中采样流匹配时间步 $\tau$ ，该分布强调较低（噪声较大）的时间步。更多细节请参见附录B。

在推理时，我们通过从 $\tau = 0$ 到 $\tau = 1$ 积分学习到的向量场来生成动作，从随机噪声 $A^0_t \sim N(0,I)$ 开始。我们使用前向欧拉积分规则：

$A^{\tau+\delta}_t =A^{\tau}t +\delta v_{\theta}(A^{\tau}_t,o_t),$

其中 $\delta$ 是积分步长。在我们的实验中，我们使用10个积分步骤（对应于 $\delta = 0.1$ ）。请注意，通过缓存前缀 $o_t$ 的注意力键和值，并且仅为每个积分步骤重新计算与动作 token 对应的后缀，可以高效地实现推理。我们在附录D中提供了有关推理过程的更多细节，包括模型每个部分的推理时间。

虽然原则上我们的模型可以从头开始初始化或从任何VLM骨干网络进行微调，但在实践中，我们使用PaliGemma [5]作为我们的基础模型。PaliGemma是一个开源的30亿参数VLM，它在大小和性能之间提供了一个方便的权衡。我们为动作专家（从头开始初始化）添加了3亿参数，总计33亿参数。我们在附录B中提供了模型架构的完整描述。

非VLM基线模型。除了我们的主要VLA模型外，我们还训练了一个类似的基线模型，该模型没有使用VLM初始化进行消融实验。这个模型，我们称之为π0-small，拥有4.7亿参数，不使用VLM初始化，并且有一些我们发现在没有VLM初始化的情况下对我们的数据进行训练有帮助的细微差异，这些差异总结在附录C中。该模型用于我们的比较中，以评估整合VLM预训练带来的益处。

五、数据收集与训练方案

功能广泛的机器人基础模型不仅需要富有表现力且强大的架构，还需要合适的数据集，更重要的是，合适的训练方案。与LLM训练通常分为预训练和后训练阶段的方式相同，我们也为我们的模型采用了多阶段训练过程。预训练阶段的目标是使模型接触各种各样的任务，以便它能够获得广泛适用和通用的物理能力，而后训练阶段的目标是使模型具备熟练流畅地执行期望的下游任务的能力。因此，预训练和后训练数据集的要求是不同的：预训练数据集应覆盖尽可能多的任务，并且在每个任务中都应覆盖行为的多样性。而后训练数据集则应覆盖有利于有效任务执行的行为，这些行为应展现出一致且流畅的策略。直观地讲，多样化（但质量较低）的预训练数据使模型能够从错误中恢复并处理高度变化的情况（这些情况在高质量的后训练数据中可能不会出现），而后训练数据则教会模型很好地执行任务。

图4：我们的数据集概述：预训练混合数据集由OXE [10]的一个子集和π数据集组成。我们使用OXE的一个子集，我们称之为OXE Magic Soup [24]。右图说明了不同数据集在预训练混合数据集中的权重。左图按步骤数说明了它们的相对大小。

A. 预训练和后训练

我们在图4中概述了我们的预训练混合数据集。由于每个训练样本对应一个时间步——即一个元组 $o_t,A_t)$ ，——在本次讨论中，我们将以时间步为单位量化数据。训练混合数据集中9.1%由开源数据集组成，包括OXE [10]、Bridge v2 [52]和DROID [23]。这些数据集中的机器人和任务通常配备一或两个摄像头，并使用2到10赫兹之间的低频控制。然而，这些数据集覆盖了广泛的物体和环境。为了学习灵巧且更复杂的任务，我们还使用了来自我们自己数据集的9.03亿个时间步的数据，其中1.06亿步来自单臂机器人，7.97亿步来自双臂机器人。这些数据包含68个任务，其中每个任务都由复杂的行为组成——例如，“清理餐桌”任务涉及将各种不同的盘子、杯子和餐具放入回收箱，并将各种各样的垃圾物品放入垃圾桶。请注意，这种任务的定义与先前的工作有显著不同，先前的工作通常使用名词和动词的任何组合（例如，“拿起杯子”与“拿起盘子”）来构成一个独特的任务。因此，我们数据集中行为的实际范围远比这个“任务”数量所暗示的要广泛得多。我们将在第五-C节中更详细地讨论我们数据集中的特定机器人和任务。

由于数据集在大小上有些不平衡（例如，难度较大的衣物折叠任务占比过高），我们按 $n^{0.43}$ 对每个任务-机器人组合进行加权，其中 $n$ 是该组合的样本数量，这样占比过高的组合就被降权。配置向量 $q_t$ 和动作向量 $a_t$ 始终具有数据集中最大机器人的维度（在我们的案例中是18，以容纳两个六自由度（6-DoF）手臂、2个夹持器、一个移动底盘和一个垂直驱动的躯干）。对于具有较低维度配置和动作空间的机器人，我们对配置和动作向量进行零填充。对于少于三个图像的机器人，我们也会屏蔽掉缺失的图像槽。

在后训练阶段，我们用一个较小的任务特定数据集微调我们的模型，使其专门用于特定的下游应用。如前所述，我们对“任务”的定义相当广泛——例如，“清理餐桌”任务需要操作各种不同的物体。不同的任务需要截然不同的数据集，最简单的任务仅需5小时数据，而最复杂的任务则使用100小时或更多的数据。

B. 语言和高级策略

更复杂的、需要语义推理和高级策略的任务，例如清理餐桌，也可以受益于一个高级策略，该策略将高级任务（例如“清理餐桌”）分解为更直接的子任务（例如“捡起餐巾”或“将餐巾扔进垃圾桶”）。由于我们的模型经过训练以处理语言输入，我们可以使用高级VLM来进行这些语义推断，这种方法类似于SayCan [2]等LLM/VLM规划方法。我们使用这样一个高级策略来辅助我们的模型在几个实验任务中制定高级策略，具体将在第六节中讨论。

C. 机器人系统细节

我们的灵巧操作数据集包括7种不同的机器人配置和68个任务。我们在图5中总结了这些平台，并在下面进行讨论：

UR5e：一个带有平行颚式夹持器的手臂，配有腕部安装摄像头和过肩摄像头，总共两个摄像头图像以及7维配置和动作空间。
双臂UR5e：两个UR5e装置，总共三个摄像头图像以及14维配置和动作空间。
Franka：Franka装置有两个摄像头和一个8维配置和动作空间。
双臂Trossen：该装置有两个六自由度Trossen ViperX手臂，其配置基于ALOHA装置[4, 57]，带有两个腕部摄像头和一个基础摄像头，以及一个14维配置和动作空间。
双臂ARX和双臂AgileX：该装置使用两个六自由度手臂，并支持ARX或AgileX手臂，带有三个摄像头（两个腕部和一个基础）以及一个14维配置和动作空间。此类包含两个不同的平台，但由于其相似的运动学特性，我们将它们归为一类。
移动Trossen和移动ARX：该装置基于Mobile ALOHA [57]平台，在移动底座上装有两个六自由度手臂，可以是ARX手臂或Trossen ViperX手臂。非完整约束的底座增加了两个动作维度，形成一个14维配置和16维动作空间。有两个腕部摄像头和一个基础摄像头。此类包含两个不同的平台，但由于其相似的运动学特性，我们将它们归为一类。
移动Fibocom：在完整约束底座上的两个六自由度ARX手臂。底座增加了三个动作维度（两个用于平移，一个用于定向），形成一个14维配置和17维动作空间。