基于模仿学习的机器人操作：分类、演化、基准测试与挑战

25年9月来自法国里昂大学、北航和大连理工的论文“Robotic Manipulation via Imitation Learning: Taxonomy, Evolution, Benchmark, and Challenges”。机器人操作 (RM) 是使自主机器人能够在真实场景中与环境互动并改变环境的核心。在众多学习范式中，模仿学习已成为一种强大的方法，它使机器人能够通过人类的演示快速学习

硅谷秋水

1308人浏览 · 2026-02-06 00:15:00

硅谷秋水 · 2026-02-06 00:15:00 发布

25年9月来自法国里昂大学、北航和大连理工的论文“Robotic Manipulation via Imitation Learning: Taxonomy, Evolution, Benchmark, and Challenges”。

机器人操作 (RM) 是使自主机器人能够在真实场景中与环境互动并改变环境的核心。在众多学习范式中，模仿学习已成为一种强大的方法，它使机器人能够通过人类的演示快速学习复杂的操作技能。本综述首次系统地回顾机器人操作的模仿学习。识别并分析大量具有代表性的研究，这些研究均因其科学质量和学术影响力而被选中。对于每项研究，都提供结构化的总结，涵盖研究目的、技术实现、分类、输入格式、先验知识、优势、局限性和引用指标。除了进行分类之外，还追溯机器人操作策略（RMP）中模仿学习技术的演进历程，重点介绍关键的方法论转变——从扩散和流匹配到自回归和affordance驱动策略。尽可能地收集基准测试结果并进行定量比较，从而能够对跨任务和环境的性能进行综合分析。最后，概述诸如泛化、具身多样性、数据效率和基准标准化等尚未解决的挑战，并探讨构建可扩展和通用型RMP的潜方向。

机器人操作策略分类如下：
请添加图片描述

其中DM、FM、GM、NR、AR、NC 和 AF 分别表示扩散模型、流匹配、高斯混合模型、朴素回归、自回归、朴素分类和affordance。

机器人操作（RM）是指机器人通过抓取、移动、组装或其他方式改变物体，与周围环境进行物理交互并对其进行改造的能力。它是将自主系统部署到现实世界的核心能力。操作的重要性早已得到认可：亚里士多德曾将人手描述为“工具中的工具”[1]，而阿那克萨戈拉则认为“人是动物中最聪明的，因为他有手”[2]。机器人操作至关重要，因为它能够实现对人类而言过于危险、精细、重复或劳动密集型的任务的自动化，这些任务涵盖制造业、医疗保健、物流和家政服务等领域。通过将人类的能力延伸到危险或敏感的环境中，机器人操作提高安全性、效率和生产力。然而，实现稳健的机器人操作需要开发稳健的控制策略，使机器人能够在动态和非结构化的环境中自适应地行动——这是现代机器人技术面临的一项长期挑战。

机器人操作策略（RMP）描述机器人如何根据其感知观测结果选择并执行动作以实现操作目标，即 π : O × G → A, a_t = π(o_t, g)。其中，O 是观测空间，G 是目标空间（例如，语言指令、物体状态），A 是动作空间。然而，物体状态、接触动态和任务变化的可能性空间非常庞大，使得通过显式规则或启发式方法来编码有效的策略变得不可能。因此，目前最先进的方法主要采用数据驱动的方式，利用深度学习从大规模数据集中学习表征和控制策略。

然而，即使是这些方法也面临着巨大的挑战，因为机器人必须在动态且非结构化的环境中运行，在这些环境中，不仅物体属性和任务目标，而且环境条件（例如光照、杂物、遮挡或背景变化）都可能出现不可预测的变化。为了应对这些难题，模仿学习（IL）作为一种强大的范式应运而生，它能够从专家演示 D = { { (oⁱ_t, aⁱ_t) } } 中学习策略，其中 π_θ ≈ π_E，π_E 为专家策略。近年来，计算机视觉和大语言模型（LLM）的进步进一步增强机器人感知、推理和规划动作的能力。

本综述聚焦于基于模仿学习的机器人操作策略（RMP），全面分析相关方法、基准测试和应用，并展望未来可扩展和通用型 RMP 的发展方向。鉴于 RMP 领域的快速发展，本综述主要关注 2021 年至 2025 年间的研究成果。目标是帮助该领域的新手快速全面地了解当前的研究现状，同时为活跃的研究人员提供支持，帮助他们高效地找到感兴趣的相关工作。通过呈现每篇论文的层级分类、目的、投入、预训练策略、优势、局限性和引用情况，旨在提炼核心信息，帮助研究人员快速评估哪些方法符合其特定需求。此外，还提供不同基准之间的定量比较，并总结了该领域备受关注的应用领域和当前面临的主要挑战，旨在动员社区成员共同努力，加速该领域的发展。

从控制策略的角度出发，本文提出一种RMP的层级分类体系。首先，将现有的RMP分为两大类：动作生成和任务规划。任务规划器侧重于预测高层信息，例如关键姿态和affordance图，并借助运动规划算法实现操作。在本分类体系中，重点阐述主流RMP方法如何有效地整合生成模型，例如扩散模型[15]–[18]、流匹配[19]和自回归模型[20]、[21]，以及基于多层感知器（MLP）的朴素回归和分类方法。

动作生成策略

对于动作生成方法，根据生成动作的类型（连续或离散）对其进行进一步分类。

1）连续动作：对于连续动作生成，将方法分为以下几类：基于扩散模型的方法、基于流匹配的方法和基于朴素回归的方法。

a）基于扩散模型的动作生成：该领域的发展历程从最初的扩散策略演变为三维扩散策略，随后又引入等变扩散策略。扩散策略与自回归策略的结合进一步增强这一策略，最终产生测试-时扩散策略。扩散策略（DP）[22] 开创了这一思想，它将控制过程构建为一个条件去噪过程，根据当前观测值迭代地从噪声中优化动作。在此基础上，SuSIE [23] 使用预训练的图像编辑扩散模型生成视觉子目标，并结合控制器来执行这些目标，从而实现零样本泛化。 ChaDiffuser [24] 和 VPDD [25] 结合自回归规划和预测视频建模，将扩散扩展到更长视场的控制。3D Diffusion Policy (DP3) [26] 和 3D Diffuser Actor [27] 通过集成点云和 3D 场景特征增强空间推理能力，提高对视角和物体变化的鲁棒性。为了利用结构先验，EquiDiff [28] 和 EquiBot [29] 将 SO(2) 或 SE(3) 等变性嵌入到扩散中，从而提高数据效率以及对旋转和平移的不变性。最近的研究还致力于持续学习、适应性和域迁移。SDP [31] 通过减少去噪步骤来加速采样；PSEC [32] 通过 LoRA 式模块在参数空间中表示技能，允许增量扩展和组合而无需重新训练整个模型。 AffordDP [34] 利用可迁移的 3D affordance引导采样，实现跨类别泛化；KStar [35] 则强制执行运动学感知规划，以实现无碰撞的双臂运动。AdaManip [33] 适用于具有配置相关控制的关节物体。这些进展使得扩散策略从实验室演示走向实际应用，例如用于家务的 BRS [36] 和将链式思维规划与扩散相结合以应对复杂多指令、长时域任务的 CoTPolicy [37]。总而言之，这些工作将扩散策略扩展为通用且语义感知的控制器。

与此同时，基础模型将扩散与大规模视觉-语言学习相结合，以实现通用机器人行为。Octo [38] 在 80 万个不同的演示数据集上进行训练，支持多模态命令和通过基于 Transformer 的扩散解码进行多具身控制。 DiVLA [39] 将视觉语言模型 (VLM) 推理与扩散控制头相结合，将高级指令转换为低级动作。CogACT [40] 将感知/推理与学习的扩散transformer解耦，从而提高适应性。ChatVLA [41] 在扩散控制器和预训练的 VLM 之间进行分阶段训练，生成既能理解指令又能执行精确动作的智体。规模化提升其能力。RDT-1B [42] 拥有 12 亿个参数和超过一百万次演示，在复杂的双手技能方面取得最先进的性能。GO-1 [43] 通过学习统一的潜动作规划器，展示跨数百个机器人和任务的跨具身泛化能力。GR00T-N1 [44] 将用于语义推理的冻结 VLM 与用于反应控制学习的扩散执行器相结合，提高可解释性和任务分解能力。数据增强也得到探索：DreamGen [45] 通过生成式世界模型和动作模型合成新的演示，以增强鲁棒性。最后，HybridVLA [46] 将自回归推理用于长时程规划，并将扩散算法用于精确的动作生成，其性能优于单一范式基线模型。

b) 基于流匹配的动作生成：流匹配作为一种新型生成模型，因其能够比扩散模型更快地生成高质量结果而备受关注。许多研究人员探索了其与机器人动作生成相结合的潜力，并由此涌现出该领域的多项杰出成果。最初，FMP [47] 首次尝试将视觉-语言模型 (VLM) 的affordance与流匹配相结合，用于机器人操作，从而实现更稳定的训练和更快的推理。反应扩散策略 (RDP) [48] 是一种新型的慢-快视觉-触觉模仿学习算法，允许机器人实时调整其策略以应对接触丰富的操作任务。 ActionFlow [49] 引入一个 SE(3) 不变的 Transformer，它能够基于观测和动作之间的相对 SE(3) 位姿进行信息空间推理。随后，π0 [50] 将预训练的视觉语言模型 (VLM) 与流匹配相结合，以继承互联网规模的语义知识，从而增强机器人高效学习和执行各种任务的能力，例如叠衣服、清洁桌子和组装盒子。GraspVLA [51] 将自回归感知任务和基于流匹配的动作生成整合到一个统一的思维链过程中，能够对合成动作数据和互联网语义数据进行联合训练，展现出直接的模拟-到-真实迁移和强大的零样本泛化能力，以及对特定场景和人类偏好的少样本适应性。Hi Robot [52] 进一步发展这一技术，它利用 VLM 进行高级推理和低级任务执行，从而能够处理更加复杂的提示。最近，SmolVLA [53] 致力于提高这些技术在资源受限环境下的效率，在保持流匹配鲁棒性的同时，融入了轻量级的视觉学习系统。总体而言，这些进展表明流匹配技术不断改进，其应用范围从基本操作扩展到更复杂、更具适应性和资源效率更高的系统。

c) 通过朴素回归生成动作：一些研究人员，特别是那些使用 VLA 模型的研究人员，认为视觉和语言编码器负责信息提取的核心任务，而信息提取功能是跨任务通用的。在这种观点下，动作策略头只需根据提取的特征预测动作，不同的场景可能需要对动作策略头进行微调。因此，他们认为动作生成模块不需要复杂的架构。相反，他们选择使用简单的多层感知器 (MLP) 并使用直接的回归技术来学习动作生成。
通过朴素回归生成动作的发展经历几个关键阶段。最初，MVP [54] 引入一个掩码视觉策略框架，该框架直接从视觉特征回归动作指令。这种方法证明自监督视觉预训练对于运动控制是有效的。 GR-1 [55] 生成式视频模型用于预测未来的帧和行为，并表明这种预训练在微调后有利于下游机器人操作。RoboUniView [56] 通过集成多视角视觉系统进一步改进了该模型，解决对相机规格和位置敏感的挑战。Lift3D [57] 随后扩展这种方法，加入 3D 深度信息，提高在空间复杂环境中的精度。SAM2Act [58] 赋予智体空间记忆感知能力，使其能够解决基于空间记忆的任务。最近，OpenVLAOFT [59] 探索适应 VLA 的关键设计选择，包括各种动作解码方案、动作表示和用于微调的学习目标。这项工作以 OpenVLA 为基础模型，为如何针对新的设置微调 VLA 提供宝贵的见解。总而言之，这些进展表明机器人动作生成方法正从简单的回归转向更具适应性和鲁棒性的方法。

离散动作：离散动作生成是 RMP 的关键组成部分，其目标是基于传感器输入预测并执行一组有限的、不同的动作。它的优势在于缩小了解的空间并简化问题求解过程。但它无法提供细粒度的、连续的操作动作。离散动作生成方法通常分为两大类：基于自回归的方法和基于朴素分类的方法。自回归模型按顺序生成动作，并将动作与前一个动作关联起来；而朴素分类模型则将问题视为分类任务，直接将输入映射到离散动作。

离散动作生成的主要优势之一是其高效性。由于动作被分类到不同的类别中，学习过程可以受益于深度学习中丰富的分类技术，从而实现更快、更稳定的训练。这些方法还可以利用成熟的分类模型和框架，使其特别适用于具有清晰、有限动作空间的任务。然而，一个显著的缺点是精度不足。由于离散动作生成通常依赖于预定义的动作类别，因此在需要精细控制的任务中可能表现不佳。这些模型的离散特性限制了它们处理复杂或高度可变任务的能力，而这些任务需要更详细的动作规范。

a) 基于自回归模型的离散动作生成：鉴于基于Transformer的网络在LLM和VLM中的成功应用，越来越多的研究将语言模态整合到视觉运动策略中，建立了一种基于多模态输入的自回归动作生成范式。Gato [60] 首先将单个大型Transformer模型视为一个通用的具身智体，能够从不同的输入中生成多种输出模态，这证明了跨任务和具身模型进行权重共享的可行性，同时也突显了其在扩展性和特定任务性能方面的局限性。 VIMA [61] 通过使用多模态提示来指定任务，将提示范式扩展到机器人领域；它引入一个桌面任务套件，并表明使用多模态提示训练的 Transformer 模型在少样本环境下具有良好的泛化能力。RT-1 [14] 提出一种工程方案，用于对所有输入输出进行标记化，并训练一个大型端到端 Transformer 模型，以直接从原始观测数据生成动作。值得注意的是，尽管 RT-1 模型规模较小，但它确立 VLA 的概念；RT-2 [103] 随后明确定义并推广该概念，这对后续工作产生深远的影响。PaLM-E [62] 将视觉和状态嵌入注入到一个大语言模型中，形成一个单一的具身多模态模型，表明联合多模态训练可以产生正迁移：该模型可以在同一架构内执行感知、多步推理和控制相关的任务。 RoboFlamingo [64] 证明，大型视觉-语言基础模型可以重新用于有效的模仿策略：通过添加轻量级策略头并进行少量调优，视觉语言模型 (VLM) 可以解释多模态演示，并以最小的修改驱动机器人行为。OpenVLA [67] 提供一个开源的 VLA 模型，该模型在大规模视觉语言动作数据集上训练，并具有统一的感知、推理和控制架构。它旨在普及通用策略的研究，并提供用于微调和评估的工具。RoboVLM [72] 对影响 VLA 模型性能的主要因素进行系统的实证研究，涵盖数据集组成、架构设计和训练策略。它为构建更强大的通用机器人策略提供指导。

在单任务或单场景设置中使用自回归模型是另一种被广泛研究的方法。 ACT [63] 将高频、低级控制打包成离散的“动作块”，大大缩短自回归序列的长度，并提高低演示条件下的样本效率。VQ-BeT [66] 提出用从演示中学习的紧凑潜空间来表示动作，从而实现平滑且时间一致的行为生成。这降低动作预测的复杂度，并提高在不同操作任务中的泛化能力。QueST [68] 提出一种以自监督方式学习技能抽象的方法，其中低级控制策略被组织成可重用的高级技能。ARP [69] 引入了变步长或混合token预测机制，允许单个架构以不同的频率和粒度发出tokens，从而减少自回归步骤的数量并提高适应性。CARP [70] 通过一种由粗到精的预测方案扩展自回归策略学习，其中高层动作规划被细化为细粒度的运动指令。这种结构提高操作的效率和准确性。

后续工作通常从不同方向改进动作生成质量；一种方法是增强模型的空间感知能力。3D-VLA [65] 引入一种生成式世界模型，该模型通过将 3D 场景表示集成到视觉-语言-动作（VLA）架构中，联合学习 3D 视觉感知、语言理解和动作生成。基于 OpenVLA，TraceVLA [71] 引入视觉轨迹提示，它利用来自过去帧的视觉轨迹线索来增强输入，从而改善时空定位。这提升VLA模型在多步操作任务上的泛化能力和性能。SpatialVLA [74] 引入空间感知表征，包括Ego3D位置编码和自适应动作网格，将与机器人无关的3D空间结构注入VLA模型，并在数百万个真实机器人场景上进行预训练后，展现出更优异的零样本迁移性能。Hamster [76] 提出一种分层VLA设计，其中高层VLM预测粗略的2D轨迹，而底层3D控制器执行运动。这种分离提高域迁移能力，并相比整体式VLA基线模型取得了显著提升。

同时，由于机器人演示数据稀缺，一些研究开始探索如何从大规模无动作视频中学习有用的动作表征。 LAPA [80] 提出了一种基于无动作视频的无监督潜动作预训练方法，它通过学习离散的潜动作，然后进行微调以将潜动作映射到机器人动作，从而实现大规模预训练而无需昂贵的机器人动作标签。UniVLA [79] 从异构的、跨具身的视频中学习以任务为中心的潜动作表示，因此可以将单一策略解码到不同的机器人上，从而实现可扩展、计算高效的预训练，并可跨具身和环境迁移。WorldVLA [82] 将离散自回归世界模型和动作模型统一到一个 VLA 框架中，从而联合建模图像和动作。该耦合模型提高视频预测和动作性能，并引入掩码注意策略来减少自回归动作误差的累积。

一些工作旨在提高模型编码和推理效率，因为生成频率对于操作任务也至关重要。 Fast [73] 提出一种基于压缩的动作token化方法，该方法使用离散余弦变换将短动作块转换到频域，然后使用字节对编码压缩这些系数，从而生成更紧凑、更能表示高频信息的tokens。VLA-Cache [75] 提出一种自适应token缓存机制，该机制可以检测跨时间步未发生变化的视觉tokens，并重用其KV计算，从而在成功率损失最小的情况下降低 VLA 推理成本。

其他工作也引入基于LLM的思维链（CoT）推理概念，并取得令人瞩目的成果。ECoT [81] 训练 VLA 在预测动作之前执行具身化的多步骤推理，例如规划、子任务和基于视觉的路径点，在无需额外机器人数据的情况下，显著提高鲁棒性和可解释性。CoT-VLA [78] 通过在生成短动作序列之前自回归地预测未来的图像帧作为中间视觉目标，集成显式的视觉 CoT。这种方法改进时间规划，并在真实和模拟操作基准测试中取得显著的性能提升。

b) 基于朴素分类的离散动作生成：基于朴素分类的离散动作生成方法的发展历程可从以下工作中看出：HULC [84] 是最早将朴素分类应用于离散动作生成的方法之一。它将动作生成过程视为分类任务，从而简化动作生成过程，提高机器人操作的效率。BridgeVLA [85] 通过集成VLA扩展了这种方法。它统一视觉和语言表示，以便更好地在动态环境中理解动作。为了利用 3D 输入的结构先验信息，BridgeVLA 经过训练来预测 2D 热图，从而有助于更准确地预测平移动作。VPDD [25] 通过引入离散扩散模型进一步推进该领域的发展，该模型结合在人类视频上的生成式预训练和在少量带有动作标签的机器人视频上的离散扩散策略微调。VPDD 强调学习预测的不仅是动作，还有执行特定动作的条件，从而提高模型对新任务的泛化能力。

任务规划器策略

对于利用任务规划器的方法，根据用于生成目标的方法类型进一步分类：生成模型、朴素分类或affordance预测。

a) 基于生成模型的任务规划器：目前已将两种主要的生成模型集成到基于任务规划器的机器人操作中，即扩散模型和流匹配模型。

SEDF [86] 是将扩散模型与机器人操作相结合的先驱性工作之一。它将抓取姿态选择和运动规划解耦，通过迭代改进轨迹来解决抓取和运动规划问题，从而联合最小化物体抓取扩散成本和任务相关成本。A0 [87] 通过引入分层的、感知affordance的扩散模型进一步发展这种方法。该模型将操作任务分解为高层空间affordance理解和低层动作执行，显著增强泛化能力，并提供一种与具身无关的设计，使其能够适应各种机器人系统。

FlowMS [88] 基于流匹配，引入一种专为多支撑操作任务设计的模仿学习架构，实现多接触全身控制器。它利用流匹配提高生成可行操作轨迹的效率。

b) 基于朴素分类的任务规划器：PerAct [91] 是最早的基于运动规划的机器人操作策略之一。它以语言目标和由 RGB-D 传感器重建的体素网格作为输入，并使用多层感知器 (MLP) 作为策略头来预测离散动作，然后使用运动规划器执行这些动作。鉴于基于体素的3D表示带来的计算负担，RVT [92] 通过提出多视图Transformer优化Per-Act的网络架构，在保持性能的同时降低了复杂度。Act3D [93] 进一步扩展这一方法，利用感知深度将2D预训练特征提升到3D，并通过对机器人工作空间中的3D点进行分类来预测末端执行器的3D位置。SAM-E [94] 将SAM [104] 作为提取任务相关特征的基础模型，然后将动作预测问题建模为一个分类问题，并利用热图进行指导，以提高少样本适应新任务的泛化能力。最近，EquAct [95] 利用SE(3)等变性作为策略和语言共有的关键结构属性，增强了对新型3D场景配置的泛化能力。这一发展趋势反映从更简单的动作表示向更复杂、更具泛化性和效率的框架的转变。

c) 基于affordance预测的任务规划：在机器人操作中，affordance指的是物体允许机器人执行的潜动作或交互。它代表物体与机器人之间的关系，本质上描述机器人如何与其环境中的物体进行交互。affordance可以用多种形式表示，例如关键点[97]–[99]、分割掩码[58]、[94]、[100]和affordance图[34]、[96]、[102]。通过识别和利用affordance，机器人可以更明智地决定如何操作物体，即使在动态或非结构化的环境中也是如此。这种方法减少了对特定任务的详尽编程的需求，使机器人能够跨不同场景进行泛化，处理更广泛的物体，并执行更复杂的操作任务。

基于affordance技术的运动规划操作演进始于 Clipport [96]，他将桌面重排建模为一系列语言条件affordance预测，从而受益于数据驱动的规模和泛化优势。RAM [98] 通过引入零样本机器人操作的检索和迁移框架改进这一方法。它从affordance记忆中分层检索最相似的演示，并以零样本和与具身无关的方式将这种域外二维affordance迁移到域内三维可执行affordance。MOKA [97] 通过引入紧凑的基于点affordance表示，推进affordance驱动的操作，从而将VLM对观测图像的预测与机器人在物理世界中的动作联系起来。ReKep [99] 通过将操作任务表示为一系列关系关键点约束，引入一种分层优化程序来求解机器人动作。 3D-LOTUS [100] 专注于通过集成用于任务规划的基础VLM来提高泛化能力。它将任务分解为逐步规划，并通过分割掩码定位物体。一旦物体被定位并识别出基本动作，3D-LOTUS 就作为运动控制器来生成动作轨迹。GeminiRob [102] 利用 Gemini 2.0 进行开放世界affordance预测，增强其对未见环境的泛化能力。这一进步体现智体向更具适应性和通用性的转变，使其能够处理动态、复杂的真实世界环境。

单任务策略

早期机器人操作策略的研究进展通常针对单任务场景，其目标是高效可靠地掌握特定的操作技能。CLIPort [48] 利用 CLIP 提取的语义视觉特征来构建像素级的拾取放置/运输策略，并结合运输/affordance预测，实现高效的单任务学习。ACT [48] 将高频、低级控制动作打包成动作块，并在动作块级别执行自回归，从而显著缩短序列长度，并提高精细化单任务（演示次数较少）的稳定性和成功率。扩散策略 [48] 使用条件扩散模型生成连续动作或轨迹，擅长对多模态目标分布进行建模，并生成高质量、自然的动作序列。在单任务场景下，它通常能够产生稳健且多样化的解决方案。等变扩散策略 [28] 将 SO(2) 等变性融入扩散策略，利用任务对称性来提高单任务的样本效率、泛化能力和对观测变换的鲁棒性。反应扩散策略 [48] 将扩散生成置于闭环控制回路中，根据最新的触觉/力输入反复重采样并调整动作。它在单一的接触密集型任务中表现出色。总的来说，这些研究系统地探索单任务控制的最优架构、训练方案和推理流程，从而为开发可扩展到多任务和多样化环境的通用策略奠定坚实的基础。

单一场景下的多任务策略

随着模型的进步，新的迭代创建在多个任务上训练但仅限于特定场景的模型。一些工作利用更强的空间感知和灵活的条件生成来覆盖同一环境中的不同任务。 MDT [30] 和 3D 扩散策略 [26] 强调基于多模态和 3D 输入的高质量、长时域生成。PerAct [91] 强调在单个场景中对多种任务变体实现极高的采样效率。RVT [92] 使用 Transformer 架构中的多视图聚合和视图合成来构建可扩展的高保真 3D 感知，在保持精度的同时实现快速训练和推理。其他工作则侧重于优化驱动的方法，使用视觉关系关键点约束来构建任务，从而通过优化生成动作序列，产生可解释的行为和强大的零样本适应性。VoxPoser [105] 将 LLM 推理和约束基于空间值函数，然后使用规划来生成轨迹，而不是训练策略来直接输出动作。ReKep [99] 使用关系关键点约束对任务进行建模，将任务执行框架化为一组可优化的约束。总体而言，这些研究工作，无论是由于问题表述的局限性和非通用的实验设置，还是由于模型容量和训练数据多样性的限制，都未能展现出跨不同任务和场景的任务完成能力。

多场景下的策略

几年前，Gato [60] 提出创建多用途“通用智体”的想法，使其能够解决一系列任务，甚至是它从未见过的任务。解决这一问题的关键在于获取可靠的数据。近年来，得益于 Open-X [106] 等社区倡议，机器人数据的规模大幅增长。这使得一些新模型得以涌现，这些模型可以从自然语言处理和计算机视觉等其他领域汲取灵感进行预训练（参见第四节）。利用预训练视觉语言模型的推理能力，一系列新方法被引入，以获得能够在行动前理解和推理场景的智能体，从而构建出能够泛化的多场景策略。此类模型的早期迭代之一是 RT-1 [103]，它使用大规模任务数据集，通过文本条件化预训练视觉模型。后续工作利用预训练模型在域外数据上的强大推理能力来学习动作模型，从而产生一系列 VLA。
RT-2 [103] 将动作离散化为tokens，并结合大规模视觉语言（VQA 风格）数据和真实轨迹数据进行联合预训练/微调，从而将网络规模的语义和推理能力迁移到多任务、跨场景的机器人控制中，并实现强大的零样本/少样本泛化能力和语义推理性能。OpenVLA [67] 提供一个开源的 VLA，该 VLA 基于近百万个真实机器人演示进行预训练，强调针对新机器人和任务进行快速、参数高效的微调；它倡导在跨场景、多任务设置中实现大数据驱动的通用性、可复现性和适应性。 Hi Robot [52] 采用分层推理-执行流水线，将高层语言推理/任务分解与底层实时控制分离，并支持在执行过程中集成人类反馈和在线纠错，从而提高其在开放式、多步骤、交互式任务中的适应性和鲁棒性。CoT-VLA [78] 引入一种视觉思维链，通过在生成短动作序列之前自回归地预测未来的图像帧作为中间视觉目标，增强了时间推理、逐步规划、长时域一致性以及跨多步骤和多场景任务的模型可解释性。SwitchVLA [107] 提出一种执行感知型任务切换框架，该框架将任务切换视为基于执行状态和指令上下文的行为调节问题；通过将演示分割成接触阶段并训练多行为条件策略，它提高在动态和交互式环境中切换任务时的平滑性和鲁棒性。

面向真实场景的策略

目前，虽然大多数研究都融入真实世界验证，但以下研究专门针对真实场景进行优化，在数据规模、训练策略和数据标准化方面进行针对性改进，并在真实世界操作任务中展现卓越的性能。RT-2 [103] 将动作视为离散的token，并结合 VQA 风格的视觉-语言数据和真实世界轨迹数据进行联合训练和微调，成功地将大型视觉-语言模型 (VLM) 的能力迁移到真实世界的机器人任务中。π0 [50] 专注于将预训练的视觉语言知识与连续、高频的动作生成相结合：它使用基于流匹配的连续动作建模来保持高控制速率和动作平滑度，从而在语义引导的真实世界操作中获得更好的一致性和频率响应能力。 Hi Robot [52] 提出一种分层推理-执行流程，将高层语言推理和任务规划与底层实时控制分离；这种设计提高机器人对开放式、多步骤和交互式现实世界任务的适应性，并有助于处理动态场景和在线指令纠错。Geminiobot [102] 基于大型多模态基础模型 Gemini，将强大的语言理解、空间推理和生成能力直接应用于机器人的闭环感知-规划-执行堆栈，充分利用大型模型在复杂推理（例如，多步骤精细操作和工具使用）方面的优势。BRS [36] 专注于全身家庭场景，并开发相应的硬件和数据采集流程，适用于长时程任务、双臂协调和受限空间操作。它强调大规模真实演示的标准化和系统化，以展示端到端策略在家庭任务中的鲁棒性和可复现性。

持续学习策略

在近期的机器人操作研究中，持续学习是通过互补的策略设计来实现的。LOTUS [83] 从原始演示中发现可重用的视觉运动技能，并使用元控制器将它们组合起来，从而生成一个不断扩展的技能库，用于终身模仿。SDP [31] 通过 MoE 将稀疏性嵌入到扩散策略中，每个任务仅激活少数专家以减少干扰，并在任务累积时保留过去的技能。PSEC [32] 将技能视为参数空间中的即插即用 LoRa 模块，从而能够通过轻量级路由实现迭代扩展和直接技能组合。 ChatVLA [41] 通过将感知-语言理解与控制相结合，利用分阶段对齐和 MoE 来协同训练通用、可扩展的 VLA 策略，从而解决遗忘和任务干扰问题。这四种方法都将可重用的内容（技能/专家/适配器）与组合方式（路由器/元控制器）解耦，仅更新轻量级模块，而不是重写整个控制器，以减少跨任务干扰。

泛化策略

目前，基于模仿学习的机器人操作学习存在明显的过拟合问题，策略的泛化能力仍然是一个普遍存在且尚未解决的问题。泛化本身就是一个广泛的问题，研究人员已尝试从各种角度对其进行改进，我们将其归纳为以下两个主要领域。

• 任务内泛化要求学习的策略在各种上下文变化下保持鲁棒性，例如物体外观、形状、姿态、光照、干扰物、背景或具身性的变化。
• 任务间泛化要求机器人不仅要回忆先前学习过的行为，还要系统地积累、组织和重组这些技能，以执行全新的任务。

例如，任务内泛化意味着，一个针对“拿起杯子并将其放在架子上”任务训练的模型应该能够处理不同类型的杯子（高矮、陶瓷或塑料、带把手或不带把手）、不同的姿态（杯子直立、侧放或部分遮挡）、不同的环境（例如办公室、家庭）以及潜在的干扰物（例如附近的杯子、碗）。相比之下，任务间泛化意味着，一个针对以下任务训练的模型：a) 拿起杯子并将其放在架子上，以及 b) 将红色积木推到左侧的垫子上，应该能够泛化到新的任务：d) 将蓝色碗叠放在绿色盘子上。在这种情况下，动词“堆叠”在训练中没有出现，新的物体对（碗、盘子）引入了独特的物体交互和稳定性约束，并且目标条件（实现垂直对齐以进行堆叠）在语义上和物理上都与之前的任务不同。

对于任务内泛化，Cliport [96]、GR-1 [55] 和 RoboFlamingo [64] 能够泛化到颜色和位置各异的实例。VIMA [61] 和 PaLM-E [62] 展示泛化到新物体组合的能力。MVP [54] 将形状和颜色解耦，使其能够处理不同的物体几何形状和颜色。SuSIE [23] 引入一种基于未来观测预测的目标条件策略。所有这些工作都从物体的角度解决任务内泛化问题，而其他一些工作则侧重于从场景的角度解决泛化问题。RAM [98] 使用基于检索的迁移范式，实现跨各种物体和环境的泛化。3D-LOTUS [100] 和 Lift3D [57] 增强跨不同实例、背景场景和光照条件的泛化能力。RoboUniView [56] 通过利用统一的视图表示，在未知的相机参数下仍能保持高性能。 Diffuser Actor [27] 利用 3D 点云来增强跨相机视角的泛化能力。SAM2Act [58] 通过引入记忆库来提高对各种场景扰动的泛化能力。

对于实体泛化，Cogact [40]、UniVLA [79] 和 SpatialVLA [74] 提供了对未见过实体和任务具有良好泛化能力的示例。Hamster [76]、TraceVLA [71] 和 OpenVLA [67] 也展现出对不同实体和场景的强大泛化能力，能够适应不同的光照和干扰因素。尽管有这些初步方法，但跨不同实体的泛化仍然局限于相似的形态和应用场景。目前，尚未实现不同配置（尤其是自由度不同的配置）的实体之间操作策略的泛化。
为了实现任务间泛化，Gato [60]、PaLM-E [62]、GeminiRob [102] 和 3D-VLA [65] 提出超越操作任务的通用模型。RT-1 [14]、Octo [38]、pi0 [50]、RDT-1B [42]、GO-1 [43] 和 GraspVLA [51] 通过应用缩放定律（即更多的数据和模型参数）来提高任务泛化能力。HiveFm [90] 和 SAM-E [94] 实现对新 RLBench [108] 任务的泛化。ReKep [99] 和 RoboVLM [72] 展示对未见过物体和任务的泛化能力。DiVLA [39] 和 HybridVLA [46] 将基于扩散动作的连续性与自回归生成的推理能力相结合，从而实现强大的泛化能力。 AffordDP [34] 通过整合来自视频语言模型 (VLM) 的affordance预测来增强泛化能力，这是一种被广泛采用的提升泛化能力方法。DreamGen [45] 通过使用视频世界模型生成机器人数据来提升泛化能力。LAPA [80]、VPDD [25] 和 GR00T N1 [44] 使用大量无动作数据进行预训练，进一步增强了跨任务的泛化能力。Magma [77] 开发了时空智能以实现长时程任务的泛化。VIDEOSAUR [109] 揭示了以对象为中心表示有利于泛化能力。QueST [68] 展示对新技能的泛化能力。ADPro [110] 提出一种基于流形和初始噪声约束的测试时自适应策略。 HiRobot [52]、ECoT [81] 和 CoT-VLA [78] 利用基于 LLM 的 CoT 的规划和推理能力，推广到新的任务和长期挑战。

数据效率策略

在模仿学习中，获取带有动作标签的专家数据既耗时又费力，因此为每个任务或场景准备专家数据并不现实。鉴于这些现实挑战，研究如何利用更少的标记数据实现有效的模型学习（即提高数据效率）具有重要意义。

一些方法通过减少对标记数据的依赖来解决这个问题。例如，PerAct [91]、PolarNet [89]、DP3 [26] 和 BridgeVLA [85] 利用 3D 数据表示，减少了对来自多个视角的 2D 数据的需求。MDT [30]、LAPA [80] 和 Hamster [76] 使用无动作数据进行训练，最大限度地减少了对耗时费力的标记工作的需求。 Equidiff [28]、EquiBot [29]、ActionFlow [49] 和 EquAct [95] 设计的网络确保模型预测符合等变性属性，例如旋转、平移和缩放，从而降低了对大量标注数据的需求。此外，LDuS [111] 和 ADPro [110] 等其他方法在测试期间将先验指导作为约束条件，避免了对目标任务标签的依赖。

采样效率策略

采样效率对于高频控制和最小化延迟至关重要，它使机器人能够快速流畅地完成任务。这在动态场景中尤为重要，因为快速反应是任务成功的关键。

Act3D [93] 和 RVT [92] 等早期工作通过用稀疏 3D 点云代替信息密集的多视图 2D 图像来提高动作采样效率，从而降低计算开销。随后，ActionFlow [49] 和 FlowMS [88] 等方法通过用基于ODE的流匹配模型替换基于SDE的扩散模型，提高生成效率，所需的迭代步骤更少。FMP [47] 应用流匹配将随机路径点转换为期望的动作轨迹，而 π0 [50] 和 OpenVLAOFT [59] 则使用流匹配生成动作tokens以加快解码速度。SmolVLA [53] 采用 10 步流匹配专家算法生成可在消费级 GPU 甚至 CPU 上部署的动作中继。CotPolicy [37] 通过使用条件最优传输来强制执行用于动作生成流 ODE 中的直线解，进一步降低推理成本。

其他工作通过用动作中继替换单动作生成来提高效率，例如 ACT [63]、VQ-BeT [66] 和 ARP [69]。基于Transformer的方法也受益于更高效的动作tokens使用：Fast [73] 引入一种基于频域的动作序列token化方法，极大地压缩token数量；VLACache [75] 选择并重用在不同步骤中变化最小的tokens；CARP [70] 采用一种由粗到精的自回归策略，首先学习多尺度动作表示，然后通过类似GPT的Transformer对其进行细化；DiVLA [39] 和 RDP [48] 通过在潜空间中生成共享动作tokens来提高效率。

近年来，大规模模型预训练已成为自然语言处理和计算机视觉领域一种强大的范式，并取得了显著的进步。利用海量文本语料库，LLM革新文本生成方式，并通过多模态训练启发视觉领域的类似突破。在此基础上，基于图像-文本配对数据训练的模型被引入，以连接视觉和语言模态，从而发展出VLM。受这些成功的鼓舞，机器人研究人员开始探索能否将大规模模型扩展到具身领域，因为在具身领域中，推理必须基于动作以及与物理世界的交互。

有两种预训练方法：使用现有动作数据集进行预训练，以及使用无动作数据集进行预训练。每种方法都可以包含在域内（包含待完成任务示例的机器人数据）和/或域外数据（非机器人数据，例如来自不同任务和环境的以自我为中心的视频）上进行预训练。

利用动作数据进行预训练

然而，由于大规模动作数据集的匮乏以及跨任务、环境和身体收集多样化演示数据的固有难度，在机器人领域复现此类突破性成果长期以来一直充满挑战。早期的尝试，例如 Gato [60] 和 VIMA [61]，证明将 Transformer 模型扩展到多任务、多身体数据的可行性。RT-1 [14] 以及 RT-X 系列的后续迭代首次展示如何利用大规模真实世界机器人数据生成可扩展、可泛化的策略。其他工作，例如 PaLM-E [62]、ACT [63] 和 RoboFlamingo [64]，开始将多模态推理与动作执行相结合，突显语言、感知和控制之间的协同作用。PaLM-E 是最早的 VLA（可变逻辑语言）之一，例如，它使用 VLM 来预测机器人动作。

Open-X Embodiment 数据集 [106] 的发布标志着机器人技术向前迈出重要一步。该数据集汇集来自多个实验室、机器人和机构的大规模演示数据。这项大规模的合作不仅扩展可用轨迹的数量，还引入前所未有的具身性、环境和任务类型多样性。Open-X 项目为 OpenVLA [67] 和 3D-VLA [65] 等模型奠定基础，这些模型展示如何利用多样化的动作数据进行预训练来提升泛化能力，而泛化能力是构建通用智能体的关键要素。

Open-X 的推出之后，多项研究表明，利用大规模动作数据进行预训练是提高机器人泛化能力和效率的关键因素。GR00T-N1 [44] 的研究表明，利用真实机器人演示、人类视频和合成数据等异构数据对 VLA 模型进行预训练，能够赋予人形机器人可迁移的感觉运动先验知识，从而实现鲁棒的零样本操作和更快的适应速度，优于从零开始训练。类似地，Physical Intelligence 的 π0 [50] 通过在预训练的 VLM 上叠加一个流匹配动作头，明确验证了动作预训练的优势，使模型能够利用广泛的多具身数据集实现稳健的泛化。他们的后续成果 FAST [73] 引入一种高效的动作token化方法，该方法在保留大规模预训练优势的同时降低计算开销，证明预训练的动作表示可以以更高的效率与基于扩散的策略相媲美。开源项目也呼应这一趋势：Octo [38] 强调大规模动作预训练如何使单个模型能够在不同的观察和动作空间中迁移；而 SmolVLA [53] 则朝着相反的方向发展，表明即使是在社区收集的动作数据集上预训练的轻量级模型也能达到大型 VLA 的性能。总的来说，这些努力表明，在多样化的动作数据集上进行预训练不仅有益，而且至关重要，它相当于机器人领域的LLM预训练，为可扩展的通用具身智能奠定基础。

使用无动作数据进行预训练

尽管机器人预训练取得进展，但公开可用的机器人动作数据的规模仍然比大语言或视觉模型中使用的文本或图像语料库小几个数量级。这种局限性促使人们开发出新方法，探索利用被动观察、视频预测或世界模型来学习感觉运动先验的预训练策略。

值得注意的例子包括 GR-1 [55]，它采用大规模视频生成预训练来学习多任务视觉机器人操作，而无需大量的动作标注数据； LAPA [80] 提出一种无监督方法，用于从互联网规模的视频中预训练 VLA 模型；UniVLA [79] 则从视频中提取以任务为中心的潜动作，从而无需动作标注即可实现跨具身策略学习。

在此，利用域外视频数据可以为可泛化的先验知识提供大规模覆盖，而域内视频数据则有助于提升任务特定的适应性。这些方法表明，利用大规模的未标注视频数据可以有效地预训练机器人任务模型，从而降低对动作标注数据集的依赖。

另一个互补的研究方向侧重于通过离散潜变量模型学习紧凑的动作表示。例如，QueST [68] 使用自编码器架构将连续的动作序列映射到离散的技能tokens，该架构能够捕捉时间相关性，然后通过下一个token预测来训练策略。VQ-BeT [66] 也类似地将动作序列编码为离散的潜向量，在不显式建模时间相关性的情况下学习底层技能的共享标记。这些离散的潜表示能够在任务和具身化之间实现稳健的迁移，同时降低对大规模动作数据集的依赖。

这些无需动作的预训练方法表明，机器人可以在动作token数据有限的域中获得可迁移的技能，从而推进通用机器人系统的发展。

数据集

RMP 通常使用三种观测模态：i) 一维状态（本体感觉、关节/EE姿态和紧凑物体状态），ii) 二维视觉流（来自一个或多个视图的RGB图像），以及 iii) 三维观测（RGB-D图像或点云）。为了研究操作并缩小仿真与现实之间的差距，研究人员依赖于高保真度的模拟器/环境以及与这些设置相匹配的真实机器人数据集。代表性资源包括 panda-gym [112]、Robo-Verse [113] 和 MuJoCo Playground [114]，它们用于在物理模拟器中进行轻量级实验；以及 Jacquard [115]、RH20T [116] 和 Open-X Embodiment [106] 等大规模真实世界数据集，它们提供与常用机器人硬件和场景相匹配的演示。

CALVIN [117] 基准测试基于 PyBullet [118] 模拟器构建，并使用 Franka Panda 机器人手臂来操作场景。CALVIN 包含 34 个任务和 4 个不同的环境。所有环境均配备一张桌子、一扇滑动门、一个抽屉、一个用于开关 LED 的按钮、一个用于控制灯泡的开关以及三种不同颜色的积木（红色、蓝色和粉色）。这些环境之间的区别在于桌子的纹理和物体的位置。CALVIN 提供 24 小时的远程操控非结构化游戏数据，其中 35% 的数据带有语言描述注释。每个指令链包含五条需要按顺序执行的语言指令。

RLBench [108] 构建于 CoppelaSim [119] 模拟器之上，其中使用 Franka Panda 机器人来操控场景。机器人配备了四个 RGB-D 摄像头，分别位于机器人的前方、手腕、左肩和右肩。

LIBERO [120] 包含超过 130 个语言条件化操作任务，分为 5 个不同的任务套件：LIBERO-Spatial、LIBERO-Goal、LIBERO-Object、LIBERO-90 和 LIBERO-Long。除 LIBERO-90 外，每个任务套件包含 10 个不同的任务，每个任务有 50 个演示。每个任务套件侧重于模仿学习的不同挑战：LIBERO-Goal 测试对象类别相似但目标不同的任务；LIBERO-Spatial 要求策略能够适应相同对象空间布局的变化；而 LIBERO-Object 则在改变对象的同时保持布局不变；LIBERO-90 包含 90 个不同的任务，这些任务分布在多种环境中，并具有不同的空间布局。

Meta-World [121] 是一个基于 MuJoCo [114] 的基准测试平台，它使用 Sawyer 机器人执行 50 个不同的操作任务（例如，抓取放置、开门、开抽屉）。它为多任务和元强化学习提供了标准数据集划分：MT10/MT50 用于多任务学习，ML10/ML45 用于元学习，训练集和测试集互不相交，以衡量跨任务泛化能力。观测数据可以是状态向量或 RGB 图像；成功通常通过二元任务完成度和目标距离阈值来衡量。

RoboSuite [122] 基于 MuJoCo 构建，支持 Sawyer、Franka 和其他机械臂，并提供诸如 Lift、Stack、Door、NutAssembly 和 Wipe 等标准化任务。它提供多个摄像头视角（正面/侧面/智能体/手腕），以及低维状态。robomimic [123] 数据集提供了不同质量（专家/中等/混合）的大规模人类远程操作演示，从而能够使用一致的指标和基线进行模仿和离线强化学习基准测试。

ManiSkill [124] 提供 GPU 加速的仿真，支持数十种桌面和关节物体任务（例如，拾取立方体、堆叠、打开橱柜门/抽屉、插拔）。它包含通过运动规划和远程操作生成的大型演示数据集，以及部分任务套件的语言/任务描述。标准指标包括成功率、完成时间和姿态/放置精度；这些指标侧重于接触密集型任务以及跨物体实例的泛化能力。

RT-1 / Open-X Embodiment [14]、[106] 聚合来自移动机械臂集群的大规模真实世界远程操作数据，这些机械臂执行数百个自然语言标注的任务（拾取/放置、打开/关闭、整理）。RGB 观测（有时是多视角）和语言命令用于训练变换器策略以实现广泛的泛化能力。基准测试评估在已见任务和新任务中的成功率、跨机器人迁移以及在不受限制的家庭和办公室环境中的鲁棒性。

SimplerEnv [125] 是一套仿真套件，旨在模拟真实的 Google 机器人桌面任务，从而使仿真中的策略排名与真实机器人上的排名相关。具体来说，它重现诸如拾取可乐罐 (PCC)、靠近移动 (MN) 和打开/关闭抽屉 (OCD) 等任务，并在两种模式下评估策略：视觉匹配（渲染效果与真实场景高度匹配）和变体聚合（对多种外观/布局变体的成功率进行平均）。

COLOSSEUM [126] 是一个泛化性能基准测试（基于 RLBench/CoppeliaSim 构建），它选取 20 个操作任务，并沿 14 个轴（例如，光照、颜色/纹理、干扰物、物体大小、物理属性、相机姿态）系统地扰动环境。主要指标是从基准设置到扰动设置的平均性能下降值（越低越好）。

指标

成功率表示成功完成任务的尝试比例，衡量机器人正确执行给定任务的频率。

任务完成时间是指机器人从开始到结束完成任务所需的时间。更快的完成速度意味着更高的效率，这在实际应用场景中至关重要。

平均长度（Avg. Len）是 CALVIN 长时域评估中的一个指标，每个回合都是由 K 个原子指令组成的链。对于第 i 次迭代，令 L_i 为最长正确前缀的长度——即在出现第一个错误之前按顺序完成的连续子任务的数量。该指标为 Avg.Len = sum（L_i）/ M，计算基于 M 个测试episodes。它反映指令链的部分进展（数值越大越好），是对二元成功与否的补充。

路径长度加权成功（SPL）将智体的成功与它移动的直接程度联系起来，其取值范围为 [0, 1]。对于第 i 个episode，令 S_i ∈ {0, 1} 表示成功，l∗_i 表示从起点到终点的最短路径长度（例如，测地线），l_i 表示智体执行的路径长度。

对于长时程操作（例如 Franka Kitchen [127]），除了二元成功结果外，还会提供已实现的子目标（微波炉打开、炉灶开启、门打开等）。
泛化量化在受控扰动下性能的变化。COLOSSEUM [126] 会扰动光照、纹理、干扰项、相机、物体属性等，并报告在各个扰动轴上相对于基准设置的平均性能下降值（↓ 表示性能更佳）。SimplerEnv [125] 报告 MMRV（平均最大秩违背，↓）和 Pearson 相关系数（↓）来衡量模拟与真实秩的相关性，以及在“视觉匹配”和“变体聚合”任务下的成功率。这些指标明确针对鲁棒性和仿真与真实环境的一致性，而不仅仅是单纯的成功率。

定性评估

为了对现有的 RMP 进行公平全面的评估，首先检索公开可用的结果，并获取 CALVIN 和 RLBench 的排行榜。另一方面，回顾定性比较结果，并记录在相同基准测试和实验设置下获得的结果。在此，重点关注 LIBERO、Meta-World、SimplerEnv-Google Robot 和 COLOSSEUM。这些定性比较从不同角度，使用各种任务设置和指标来评估现有的 RMP。

现实世界中的操作方法涵盖各种不同的需求，将其归纳为以下几类应用：
（i）原始操作任务——以感知控制为主的短时、一次性技能；
（ii）接触-密集型组装任务——高精度插入、折叠和持续施力操作；
（iii）厨房助手——在语言或目标引导下进行的长期家务；
（iv）工具-辅助操作——需要利用外部可供性的技能；
（v）垃圾清理——在感知引导下捡拾和擦拭垃圾以及清洁桌面。

数据驱动的机器人学习面临着一个根本性的瓶颈：高质量且多样化的领域内数据的匮乏。与自然语言处理或计算机视觉等领域海量数据集唾手可得不同，机器人数据的收集成本高昂，且往往范围狭窄，限制了学习策略的泛化能力。这就需要更智能的学习策略，将归纳偏差嵌入机器人模型中，从而降低对全面数据覆盖的依赖。

一个很有前景的前进方向是设计仿生机器人基础模型，其中借鉴人类和动物的感知、运动控制和适应原理可以提供必要的结构先验信息，从而突破当前的限制。

常用先验知识

在 RMP 中，多种形式的先验知识常用于提升性能。

思维链 (CoT) 是最常用的先验知识之一 [62]、[78]、[81]。CoT 源自 LLM，它使机器人能够将复杂或长周期任务分解为易于管理的子任务，从而在操作过程中做出更有效的决策。

affordance知识 [34]、[47]、[97] 使机器人能够识别和预测物体的交互方式，并根据物体的物理属性和潜在用途来指导其动作。它通常用于增强模型的泛化能力。路径点 [47]、[153] 是affordance知识的一种特殊形式，它定义了操作任务中的中间位置或目标，以帮助机器人规划和执行更精确、更高效的运动。

运动学约束 [35] 确保机器人在运动过程中遵守物理限制，从而优化其轨迹并最大限度地减少误差。

等变约束[28]、[29]、[49]、[95]可用于通过减少所需数据量来提高策略学习效率。这些约束有助于模型学习特定变换下的不变行为，从而降低对数据量的需求。

此外，还可以利用其他先验信息，例如从观测中导出的流形约束[110]，以充分利用测试-时数据的信息。

挑战

a) 泛化能力不足：RMP（机器人模型）通常难以泛化，尤其是在应用于实际场景时。这些智体对训练时所处的特定场景或任务高度敏感。一旦环境、物体类型或任务条件发生变化，它们的性能就会显著下降。特别是，它们对实际任务的泛化能力仍然有限，这使得机器人无法在动态和非结构化的环境中独立处理日常任务。

b) 机器人配置多样性：机器人设计和配置的多样性导致学习操作策略的输入和输出空间存在显著差异。这些差异使得现有模型难以在不同的机器人平台上进行泛化。因此，实现一种能够适用于各种机器人类型的统一操作策略极具挑战性。为了解决这个问题，标准化的机器人配置对于构建通用且实用的基础VLA至关重要。这将使不同机器人系统和任务之间的学习更加有效且更具迁移性。

c) 缺乏统一的基准：缺乏通用且易于使用的基准来评估不同的方法，是机器人操作领域面临的另一大挑战。研究人员通常在自己的环境中评估方法，这使得跨技术进行全面且一致的比较变得困难。虽然存在一些基准，但它们要么难以在无头服务器上部署，要么覆盖的任务范围有限。缺乏标准化的基准阻碍了进展，因为没有可靠的方法来衡量改进或在不同的研究中得出明确的结论。此外，现有数据集在观察方式、动作维度和任务设置方面差异很大，导致它们彼此不兼容。

d) 对专家数据的依赖：当前的机器人操作方法仍然严重依赖专家数据，例如标注数据集和演示数据。通常，系统需要使用特定领域的数据进行微调，才能在实际任务中表现良好。此外，这些系统在测试期间通常缺乏足够的适应性，其自适应或持续学习能力有限。对预先收集的数据的依赖以及无法持续从新经验中学习，限制了机器人操作技术在实际应用中的可扩展性和灵活性。

e) 协作和灵巧操作：双臂协作操作和高自由度操作仍处于早期阶段，代表着一个新研究领域。这些进展对于使机器人能够在现实场景中协调并自然灵巧地执行任务，以及推动人形机器人的发展至关重要。