26年1月来自的BeingBeyond团队的论文“Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization”。

Being-H0.5 是一个基础视觉-语言-动作 (VLA) 模型,旨在实现跨不同机器人平台的鲁棒跨具身泛化。现有的 VLA 模型通常难以应对形态异质性和数据稀缺性,而提出的一种以人为中心学习范式,将人类交互痕迹视为物理交互的通用“母语”。为了支持这一范式,推出 UniHand-2.0,这是迄今为止规模最大的具身预训练方案,包含来自 30 种不同机器人具身的超过 35,000 小时多模态数据。该方法引入一个统一动作空间,将异构的机器人控制映射到语义对齐槽中,使低资源机器人能够从人类数据和高资源平台中引导技能。基于这一以人为中心的基础,设计一个统一的序列建模和多任务预训练范式,以连接人类演示和机器人执行。在架构上,Being-H0.5 采用混合 Transformer (MoT)设计,并引入一种混合流 (MoF) 框架,将共享的运动基元与特定于具身的专家解耦。此外,为了使跨具身策略在现实世界中保持稳定,引入流形-保持门控 (Manifold-Preserving Gating) 以增强其在感官转换(sensory shift)下的鲁棒性,并引入通用异步分块 (Universal Async Chunking) ,通用化地实现具有不同延迟和控制特性的具身之间分块控制。


视觉-语言-动作模型(VLA)需要大量的机器人交互数据来获取可操作的知识和世界常识。然而,当前的机器人数据现状受到几个根本性限制。本文的工作系统地解决了以下关键挑战:

1)数据规模和多样性有限。大多数现有的VLA[6, 91]都受限于其预训练语料库规模和多样性不足。许多模型依赖于范围狭窄的数据,例如Open X-Embodiment数据集[7],该数据集在经过严格筛选后仅提供六个主要子集,且多样性有限;而Agibot World[48]仅包含约200小时的桌面操作数据,并且缺乏必要的第三人称视角。这种数据匮乏阻碍模型对新任务和动态环境的泛化。为了克服这一问题,构建一个综合性的机器人操作数据集,该数据集聚合绝大多数可用的机器人数据。
2)具身多样性受限。除了规模之外,现有数据集通常包含有限的几种机器人形态,往往仅限于单一类型的机器人(例如,Agibot World [48] 和 LET [92])。虽然存在一些跨形态的数据集 [51],但由于显著的结构差异,将这些数据源统一起来进行预训练仍然十分困难。因此,很少有VLA模型能够成功地整合广泛的机器人形态。例如,π 系列 [8, 34] 仅包含 10 种机器人类型,主要为同质化的双手平台。相比之下,本文的 UniHand-2.0 整合来自 30 种不同形态的数据,涵盖单臂/双臂、便携式、半人形和腿式人形机器人。通过将这些异构数据源投影到统一的状态-动作空间来实现这一点,从而确保训练的稳定性。
3) 灵巧手数据的稀缺性。尽管通用数据采集技术取得进展,但涉及灵巧手部的数据仍然极其稀少,仅占现有语料库的不到 5%。这种不足源于硬件成本高昂以及灵巧远程操作的吞吐量低。为了缓解这一问题,利用类似于 [10] 的大规模人体运动数据作为可扩展的智体,充分利用了在自然环境中捕捉人手交互相对容易的优势。
4) 视觉信息与语言信息不平衡。以往的视觉语言分析模型 [8, 93] 通常仅依赖机器人数据进行预训练,导致严重的模态不平衡,文本标记与视觉标记的比例可能高达 1:3000。这种差异导致模型丧失了大量的文本推理能力,而这对于执行长时任务至关重要。虽然一些研究工作采用了视觉语言数据[34, 54]或交错的多模态样本[94],但我们在预训练阶段系统地整合了海量多模态数据,以确保Being-H0.5在原子动作执行和长时程任务规划及空间推理方面均表现出色。

UniHand-2.0,是一个基于其前身UniHand-1.0[10]构建的显著扩展的数据集。该数据集包含从35,000小时的多模态数据中提取的超过4亿个样本,总计超过1200亿个训练tokens。这些样本涵盖三个关键领域:以自我为中心的人类运动、机器人操作和视觉语言理解。

如图所示,UniHand-2.0是一个以人为中心的VLA预训练语料库。不同研究工作对Open X-Embodimen数据集的使用存在争议。因此,将具身化计数限制在数据时长超过10小时的范围内。 UniHand-2.0 利用低成本的人体数据作为主要预训练材料,将人手视为所有末端执行器的通用模板,赋予模型基础交互知识和物理理解。通过从 16,000 小时以自我为中心的视频中提取 1.34 亿个人体数据样本,进一步推进这一范式,数据量比 UniHand-1.0 增加 100 倍。此外,UniHand-2.0 还整合超过 14,000 小时的涵盖 30 种不同具身类型(例如 Franka、AgiBot-GR1、Unitree-G1、SO101)的多样化机器人数据,使模型具备强大的跨具身泛化能力。
请添加图片描述

这种具身多样性是现有基于扩散VLA模型的先决条件。从流形学习的角度来看,简单的具身(例​​如并联机械臂)在一个低维、光滑的动作流形上运行。相比之下,灵巧机器人则处于复杂的高维空间中,其流形结构通常是非线性和碎片化的。这些复杂实体的动作分布与简单实体的动作分布存在根本差异。例如,机械臂的二元“打开/关闭”指令是一个简单的标量,而灵巧手的“精确捏合”则需要一个高维的协调向量。这种差异导致适应过程中目标分布发生严重的偏移。此外,对于扩散框架而言,它必须推断出一个连续的向量场来定义向下一个动作状态的概率演化。当一个仅在简单机器人上预训练的模型遇到复杂实体的未知​​状态空间时,其向量场预测会受到累积误差的影响。这些误差会导致生成的轨迹“漂移”,并迅速偏离有效的机器人运动流形,从而导致不稳定或物理上不可行的行为。

为了在不同模态之间保持关键的平衡,整合规模相当的视觉语言理解数据,从而保留模型的推理和指令执行能力。因此,UniHand-2.0 构成基于以人为中心的学习理念构建的预训练数据集。

本文将训练数据结构化为三个相互关联的任务族:运动生成(主要目标是将视觉/语言映射到运动学动作)、运动描述和运动延续。为了确保数据的高保真度并最大限度地减少虚假相关性,实施一个严格的四阶段后处理流程:1)语言增强:用大语言模型(LLM)对所有模板格式的指令文本进行释义和多样化,防止模型过拟合僵化的语言模式。2)运动质量过滤:通过基于检测置信度和DBA误差过滤噪声HaWoR估计值来确保数据的可靠性,同时去除腕部空间中的高频抖动或不连续性。3)操作相关性过滤:使用Gemini辅助的语义筛选,排除以非操作动作(例如纯粹的移动)为主的片段。 4) 惯用手偏差消除:对所有样本应用左右空间镜像,以减轻常见的右手偏好,从而促进学习策略中的左右手通用性。

机器人控制数据是策略学习的基石,为实现广泛的具身​​泛化和灵巧操作能力提供了关键途径。为了建立一个全面的资源库,我们精心整理了一个大规模、异构的机器人演示数据集。该数据集汇总了约 14,000 小时的交互数据(约 15 亿帧),使其成为目前最全面的机器人行为库之一。该数据集系统地整合了众多数据集,包括 OpenX-Embodiment [7]、AgiBot-World [48]、SO100-Community [47]、InternData-M1 [54]、RoboMIND [49]、RoboCOIN [51]、LET [92] 等。我们从该聚合数据集中执行去重和 30% 的帧下采样,以最大限度地提高数据多样性并最大限度地减少冗余。

处理后的数据集涵盖30种不同的机器人形态,例如Franka机械臂、Split ALOHA和Agibot G1,代表广泛的硬件形态和控制接口。为了进一步扩展任务覆盖范围,引入程序生成的模拟样本[54]和图像修复增强的轨迹[101]。虽然模拟数据能够有效提升标准基准测试的性能,但过度依赖模拟数据会加剧模拟与真实之间的差距。为了缓解这一问题,严格限制预训练混合数据集中模拟数据的比例(占总数据集的26%),以确保真实世界信号始终是主要的学习信号。最后,为PND Adam-U和BeingBeyond D1等硬件平台提供新的演示数据,以提高数据的多样性和平衡性。

标准机器人训练语料库中,视觉成分和文本成分之间通常存在显著的不平衡。机器人交互数据提供丰富的视觉信号,但相应的语言监督信息却往往稀疏且简单。这种差异造成多模态监督的根本性不对称,可能导致模型在复杂文本推理、指令执行和高级规划方面的能力下降。例如,仅在构建的机器人交互语料库中,视觉tokens的数量就高达 457 亿,而文本tokens的数量仅为 3000 万——比例惊人,约为 1000:1。如果不加以解决,这种差异可能导致模型过拟合视觉模式,从而牺牲语言智能,最终使机器人智体沦为视觉-运动反射系统,而非推理智体。为了恢复模态平衡,其构建一个全面的视觉-语言理解语料库,旨在保留并增强模型的语义推理能力,包括三个种类:

  1. 通用视觉-语言质量保证。为了保持稳健的通用视觉语言对齐,整合已建立的大规模指令调优数据集。
  2. 二维空间落地与affordance。机器人操作需要的不仅仅是语义描述,还需要精确的空间定位。为了弥合语义理解与物理执行之间的差距,整合专注于落地推理、物体定位和affordance检测的数据集。
  3. 任务规划与推理。除了即时感知之外,一个优秀的智体还必须能够进行长远的推理。整合高级规划数据集来解决这个问题,将复杂的、长远的命令分解为逻辑子任务序列,弥合了抽象的用户意图和低级运动执行之间的关键差距。

尽管开源语料库规模庞大,但它们通常缺乏关键的监督信号,例如精确的深度信息、稳定的相机对准以及时间上精确的交互事件。例如,Ego4D [61] 及其多视角扩展 Ego-Exo4D [62] 提供了丰富的语义描述,但缺乏几何深度信息。Egocentric-10K [115] 包含 10,000 小时的工业场景视频素材,但仅提供原始 RGB 流,没有标注。此外,HD-EPIC [116] 和 HOI4D [117] 等基准测试依赖于离线校准来近似相机姿态,并且它们的交互标签通常与视频片段边界或少数几个标注帧对齐。这种粗略的标注方式导致物体接触和释放的确切时刻存在时间上的模糊性,不利于细粒度策略学习。为了解决这些缺陷,本文开发一个模块化的即插即用数据采集系统,用于收集具有同步监督的高质量多模态录像。

  1. 原生深度采集。
  2. 高精度外参。
  3. 硬件同步交互事件。

利用该系统(如图所示),构建一个包含 43 个桌面任务和 200 多小时多模态记录的数据集。所有传感器都通过中央时间戳设备进行同步,模块化架构允许快速更换传感器,并计划扩展到触觉传感和移动场景。后处理流程包括三个阶段:首先,使用 Grounded-SAM2 [120] 和 DiffuEraser [121] 跟踪 AprilTag 区域并进行修复,以确保视觉清晰度;其次,通过多视图深度积分来细化通过 HaWor [98] 估计的手部运动,以强制跨视图空间一致性;最后,Qwen2.5-VL [122] 根据踏板触发的事件信号自动生成细粒度的任务描述,并经过最终的人工验证,以确保其合理性和正确性。
请添加图片描述

模型架构

遵循 BAGEL [123] 的架构原则,Being-H0.5 采用一种专门的混合 Transformer (MoT) 架构 [124],旨在将高层语义推理与低层运动控制分离。在该架构中,Being-H0.5 集成两个不同的专家模块:1) 多模态理解专家负责解释高维感知输入。在VLA的背景下,该专家超越传统的图像描述,专为长时程规划而设计,能够生成中间子目标,并提供必要的空间推理能力,使模型能够在复杂环境中运行。2) 动作生成专家作为一个专用策略网络,负责将高层规划转化为精确的运动学执行。如图所示:
请添加图片描述

这种双专家范式平衡语义理解和连续控制,与 π0 [8] 等模型所建立的架构共识相一致。至关重要的是,尽管这些专家各自承担特定的功能角色,但它们都在统一的 MoT 主干网中运行。两个模块处理相同的token序列,并利用每个 Transformer 层共享的自注意机制。这种设计促进无缝的信息流,确保动作生成与视觉语义上下文紧密相关,而不会造成架构瓶颈带来的额外开销。

关于生成范式,采用一种针对不同输出模态的混合方法。对于包含高级推理和动作描述的文本输出,利用标准的下一个token预测范式,该范式利用 VLM 的成熟优势,生成连贯且逻辑结构化的指令链;而对于离散的手部动作,则采用掩码token预测准则。对于动作预测,采用 Rectified Flow [33, 125] 方法,摒弃离散token化,转而采用连续动作。这使得策略头与前沿的基于扩散 VLA 方法保持一致,从而能够在动作空间中生成平滑、高保真的多模态分布。

Being-H0.5 的主干网初始化自 InternVL-3.5 [126],这是一个公开可用的VLM,具有稳健的仅解码器 Transformer 架构。选择 InternVL-3.5 是因为它在复杂的视觉推理基准测试中表现出色,并且易于获取。值得注意的是,VLM 主干网的选择至关重要,经验证据表明,底层视觉特征会显著影响下游VLA的效能。鉴于架构偏差可能导致机器人性能的显著差异,计划在未来的探索中系统地对其他主干网进行基准测试。

统一的状态-动作空间

通用机器人学习扩展的主要障碍在于多源具身数据固有的极端异构性。人手与机器人末端执行器之间的“物理差距”,加上不同机器人平台在运动学、驱动极限和控制频率方面的差异,导致数据格局高度碎片化。此外,现有数据集经常使用不一致的命名规则和不同的物理单元来描述语义相同的动作。

先前的方法[9]通常通过为每个特定的具身分配独立的MLP投影层(即独立的编码器/解码器头)来处理尺寸变化,从而规避这些差异。这种策略并非最优,因为它不必要地消耗模型容量,并将物理共性的学习分割开来。实际上,各种夹爪配置和灵巧的手在末端-执行器(EEF)轨迹上表现出高度的几何一致性,并且许多关节配置都具有潜在的对齐能力。通过独立的多层感知器(MLP)头部来隔离这些参数,会阻止模型利用共享的物理先验知识,从而降低跨具身泛化能力。此外,许多现有方法容忍混合的旋转表示(例如,欧拉角、四元数),迫使网络将计算资源浪费在非必要的格式差异上。这种结构上的缺失会引入不必要的噪声,破坏训练过程的稳定性,并严重限制模型将知识从人类视频数据迁移到机器人控制的能力。

为了弥合这些运动学差异,引入一个物理上可解释的统一状态-动作空间。将状态和动作形式化为固定长度的高维向量,其结构遵循[10]中提出的物理语义对齐原则。从概念上讲,将向量空间划分为语义隔离的子空间,其中每个维度对应于一个具体的物理量,例如双手EEF姿态、关节位置、夹爪宽度、手指关节活动度或移动基座的速度和航向指令。统一空间的一项关键创新在于将人手运动视为一种通用的具身化。将 MANO 手模型中的参数直接映射到这个统一空间。具体来说,人手的全局腕部姿态与机器人 EEF 子空间对齐,而手指关节则映射到预留的“精细操作”槽位。这种架构确保不同的自由度 (DoF) 不会发生冲突,从而使模型能够学习一种共享的、与具身无关的操作逻辑潜表示。通过利用这种通用的“动作语言”,Being-H0.5 可以有效地在大量的人类视频和不同具身化的场景库中进行预训练,同时保持与下游机器人执行的直接兼容性。

为了保证跨异构平台的可迁移性,在每个子空间内强制执行严格的标准化。对于笛卡尔控制,所有末端执行器动作都表示为统一世界坐标系中的相对位移增量。旋转采用轴-角符号进行统一参数化,以防止万向节锁死并确保在 SE(3) 流形上平滑插值。对于关节空间控制,位置被标准化为绝对弧度值。值得注意的是,摒弃传统的统计归一化方法(例如,缩放到 [-1, 1] 区间),而是选择保留原始的物理量级。1 弧度或 10 厘米的移动蕴含着归一化所掩盖的内在物理意义。通过仅应用异常值滤波来降低传感器噪声,迫使模型学习动作的真实物理尺度,从而得到一种在各种不同的构造和环境中都具有泛化性和物理基础的策略。

混合流

虽然统一的状态-动作空间能够有效地表示不同的构造,并防止预训练期间出现表征冲突,但传统动作专家的有限容量仍然是一个关键瓶颈。这种容量限制通常会导致VLA在集成具有异构形态的机器人时性能下降——尤其是在动作专家的参数通常远少于用于视觉生成的基于流专家时 [123, 127]。此外,这种受限的容量阻碍模型在各种具体形式和复杂的下游任务中进行泛化的能力。

为了克服这些限制,引入混合流(MoF):一个可扩展的架构框架,旨在解耦不同的具体形式和技能,同时利用共享的基础表示。其于两个关键观察。首先,尽管视觉和运动学上存在显著差异,但许多具体形式共享部分控制结构。例如,Franka 和 Kuka 机器人都是由关节位置和末端执行器状态定义的 N 自由度机械臂,而像轮式半人形机器人这样的移动平台,则共享用于基座控制的通用速度和姿态指标。将统一的专家模型分解为专门的子模块,可以使模型掌握特定的状态空间区间,从而减轻不同形态之间的相互干扰。其次,人类运动控制本质上是模块化的,通用的运动基元会根据特定任务动态调整。基于这些原则,基于流程的动作专家模型被构建成一个双层层次结构:1)基础专家(共享动力学):动作专家的初始层由所有输入共享的标准 Transformer 模块组成。这些层编码基本的、可迁移的运动基元(例如,抓取、移动和避障),这些基元在不同形态和任务中保持不变。 2) 专业专家(具身化与任务路由):上层利用一组并行、专业化的专家,这些专家由一个可学习的门控网络管理,其设计灵感来源于混合专家(MoE)架构[12]。对于给定的输入状态和指令,路由会动态激活一个稀疏的专家子集(例如,Top-K),从而实现高效的专业化,而不会线性增加计算开销。

这种架构稀疏性是Being-H0.5高效性和鲁棒性的基础。它允许模型将精细的基础原语合成为复杂的、特定于任务的行为,而不会受到跨任务干扰。在训练过程中,特定任务的梯度仅更新相关的专家路径,从而保留其他局部技能的权重。此外,这种设计将总参数数量与激活参数数量解耦。虽然统一模型包含一个庞大的技能库,但在推理过程中只有一部分参数会被激活。这使得 Being-H0.5 能够高度部署在资源受限的边缘硬件(例如 NVIDIA Orin-NX)上,使机器人能够在不超出内存带宽或延迟限制的情况下访问广泛的按需功能。

预训练:以人为中心的机器人学习

机器人学习框架本质上是以人为中心的,并以 UniHand-2.0 数据集作为其结构基石。在这种范式下,人类行为被视为丰富的物理先验信息来源,而非被动的参考。UniHand-2.0 发挥着双重作用:其大规模的以自我为中心的人类数据提供可迁移的行为意图,用于编码复杂交互如何在开放世界中展开;同时,其机器人轨迹提供高保真度的运动学监督,这对于底层运动控制至关重要。

为了弥合人类演示和机器人执行之间的差距,引入通用的视觉问答(VQA)信号。这种整合注入广泛的视觉语言上下文,增强场景理解,从而解决具身智能中的一个关键矛盾:既需要精确的运动控制,又需要丰富的上下文信息。通过合成这些异构数据流,多任务目标训练模型,使其能够感知视觉语言的细微差别,同时执行精确的动作。

统一序列建模

将所有监督信息转化为一个统一的多模态序列建模问题来实现学习框架。通过将状态-动作空间视为一个显式模态,定义一个状态向量 s 和一个动作向量 a,它们在所有实现中共享。每个实现 e(例如,并联机械臂、灵巧手或移动基座)都通过稀疏槽位分配投影到这个统一空间中。这使得人类的手部动作和机器人轨迹能够与视觉和语言一起,在一个可物理解释的界面中共存。

在训练过程中,采用物理指令调优[10]将数据组织成查询-答案格式。模型以上下文SQ为条件,并通过仅基于响应SA的生成损失进行优化。

以人为中心的多任务目标

在统一的序列中,定义一系列任务,这些任务以其模态组织方式为特征。首先,运动生成是操作学习的主要目标。该模型基于视觉、文本和状态预测动作块。这是大规模人机交互轨迹和机器人轨迹提供策略相关监督的主要途径。为了补充这一点,引入运动描述和运动延续作为对齐目标,以加强视觉-语言-运动的关联性和时间连贯性。对于运动描述,该模型基于视觉和交互轨迹(状态/动作)预测文本,从而强化语义关联,将高层语言意图与物理上的结果对齐。对于运动延续,该模型基于过去的观察和动作历史预测未来的动作块,从而鼓励学习超越单步模仿的时间一致性交互动态。

虽然预训练本质上是以人为中心的,以自我为中心的人类数据构成数据配方的核心,但问答对的序列化能够无缝地吸收各种辅助监督。通过仅实例化可用的模态,该框架整合用于动作生成的机器人操作数据和用于标准文本预测的VQA数据集。所有任务共享一个共同的主干,并通过联合损失函数进行优化。

为了处理多模态特性,定义token-级的索引集,用于识别统一序列中受每个损失项影响的片段。对于VQA和运动描述任务,对目标文本token应用标准的交叉熵损失。对于动作生成和延续(来自人类和机器人),用专门的动作损失函数来监督动作tokens,其具体形式取决于特定的运动表示。

混合的人类运动表征

人类手部运动本身就具有丰富的表现力;然而,在大规模应用中,它不可避免地会表现出细微的执行差异和观测噪声。完全依赖连续监督会导致学习的先验信息脆弱,而纯粹的离散表征则可能牺牲精细控制所需的精度。为了同时满足机器人控制的高保真度要求和类人运动的稳定行为先验,在同一训练实例中使用两种互补的表征来监督运动:1)统一空间中的连续动作块;2)通过块量化得到的离散运动tokens,如 Being-H0 [10] 中所述。

具体来说,给定一个长度为 T 的运动片段,将其表示为一个连续序列 A = [a_1, …, a_T],其中每个 a_t 都位于统一的高维动作空间中。同时,利用预训练的token化器将运动量化为一个离散序列 z。这个离散通道作为一个鲁棒的、类似语言的抽象,可以过滤掉高频执行噪声,从而稳定异构数据集上的运动先验。联合目标被表述为连续流匹配和离散掩码运动预测的加权组合。

通过预测这些离散tokens,模型学习手部运动的底层“语法”,从而提供一个结构框架来支持连续的、与运动流匹配的头部。
为了实现无缝的多模态集成,将上下文和混合目标序列化为一个统一的序列。对于给定的实例,将共享的上下文前缀 S_Q 与两个目标片段连接起来:[S_Q ; SFM_A; SMASK_A]。其中,SFM_A 包含连续的动作目标,而 SMASK_A 包含离散的运动token目标,两者均基于相同的上下文 S_Q。为了防止模型在连续通道和离散通道之间​​复制信息而导致的简单信息泄露,强制目标片段 SFM_A 和 SMASK_A 可以关注共享的上下文 S_Q,但彼此不可见。这是通过带门控矩阵的修改后注意掩码实现的。有效的注意掩码是通过将此门控应用于原始掩码来实现的。

此外,调整位置索引,以确保两个目标都来自同一位置原点。这种对齐方式使模型能够将连续和离散的表示视为同一时间事件的两种互补视角,它们都基于相同的背景起源。

后训练:迈向跨具身适应

尽管 UniHand-2.0 数据集提供与 Being-H0.5 类似的广泛具身多样性,从而比现有的VLA提供更强的结构先验,但后训练阶段仍然是一个不容忽视的挑战。其主要目标是将预训练策略适配到专门部署的机器人上,这些机器人通常具有独特的运动学、约束和运行时特性,同时又不削弱大规模预训练期间获得的通用表征。实际上,这一阶段主要面临可塑性与稳定性之间的两难困境:下游的微调很容易导致策略过于狭隘,在有限的轨迹分布范围内取得很高的成功率,但却牺牲推理深度和跨具身迁移能力。

跨具身部署中三个相互关联的脆弱性来源是:1) 依赖于具身动作场在共享参数下相互竞争,导致形态学干扰;2) 分布偏移下的上下文不可靠性,其中退化的特征会在流程更新中引起动作抖动;第三,在不同的延迟/频率下,推理和执行之间存在实时时间不匹配。为了解决这些问题,引入两种互补的后训练技术(具身特定适配和流形保持门控),以及一种面向部署的训练协议——通用异步分块。

具身特定适应(ESA)

尽管在预训练期间学习强大的视觉-语言-动作表征,但模型仍然必须考虑目标硬件独特的物理动力学特性。每个具身 e 都会产生不同的可行动作集,这些动作集受运动学限制、自碰撞和接触约束的制约。因此,随着具身复杂性的增加,条件分布 p(a | H, e) 变得越来越多峰且越来越不平滑。从流匹配的角度来看,动作专家学习一个具身条件化的速度场 v_θ(a_t; H, e) 来匹配目标速度场 v(a_t, a_0)。
ESA 利用统一的动作空间:不同的实现方式激活不同的索引集(共享形态组件有部分重叠),只更新与这些活动索引相关的参数。

流形-保持门控(MPG)

流匹配将噪声传递到动作空间,其条件是动作专家所获取的token级上下文特征 H。在实现中,H 指的是由本体感觉状态嵌入和当前动作token嵌入(投影到 VLM 隐层大小)连接而成的后缀token特征,而语言/视觉前缀保持不变。

MPG 将 H 视为一个带噪声的条件信号,并显式地估计其可靠性。当 H 对于目标实现而言不服从分布时,基于 H 对动作专家进行条件化可能会引入虚假信号,并迫使模型拟合不一致的速度场,这通常会导致动作抖动。因此,MPG 采用差异引导门控机制来降低特征相关的修正权重,同时保留一个未设门控的学习先验偏移量,以实现平滑回退。

如图左所示:在切片- Wasserstein 距离 (SWD) 空间中将观察嵌入与参考动作嵌入(训练:真实值;推理:前一次迭代)进行比较,以获得差异引导门控 g。该门控缩放特征条件残差,而未设门控的学习先验偏移量提供稳定的回退,为动作专家生成增强的上下文特征 H ̃。
请添加图片描述

通用异步分块(UAC)

在物理硬件上部署动作分块策略会引入一个根本性的时间不匹配:当模型计算后续动作块时,机器人必须继续执行先前已提交的轨迹。在模拟环境中,这种延迟差距通常可以忽略不计。然而,在真实机器人上,推理延迟会直接导致控制中断和灾难性的任务失败。

训练-时实时分块(RTC)[131] 通过在训练阶段模拟推理延迟来缓解这个问题:前缀动作被分配一个干净的时间步长(t=1),而后缀动作则被分配随机噪声时间步长(t<1),损失函数仅基于后缀动作计算。然而,实时分块(RTC)通常仅针对单个平台进行实例化。对于跨平台VLA而言,这仍然是一个重大限制,因为不同的机器人平台在不同的控制周期和不同的延迟预算下运行。

UAC 通过具身-觉察的延迟渲染来扩展 RTC。对于具有控制周期∆t和预期推理延迟预算L的实例 e,控制步骤中的有效延迟按 ⌈L(e)/∆t(e)⌉ 进行缩放。UAC 利用特定实例的延迟分布和最大延迟阈值,并与 ESA 联合训练,从而使单个检查点能够适应​​不同的运行-时特性。

结合具身特定适应性,UAC 训练一个统一的模型,以在不同的机器人之间生成平滑的延续,每个机器人都有其独特的延迟特性,同时通过双-线程缓冲区保持与实时异步部署的兼容性。

如上图右边:基于特定于机器人的动态延迟 d,每个预测动作块被拆分为已提交的前缀 A_<d(已排队/正在执行)和预测的后缀 A_≥d。双线程缓冲区支持跨具有不同延迟预算的机器人进行异步推理/执行。


弥合高容量 VLA 模型与实际机器人控制之间的差距,需要一个优先考虑时间一致性、对分布偏移的鲁棒性和低延迟执行的部署流程。
本文设计一种推理基础设施,将 Being-H0.5 的跨实体和异步能力转化为鲁棒的实时控制。具体而言,该基础设施由三个紧密耦合的组件构成:(i)采用缓存前缀特征以提高效率的整流动作推理;(ii)基于 MPG 的流形保持细化,以在分布偏移下稳定推理;以及(iii)采用双-线程环形缓冲区架构的通用异步分块协议,用于跨异构平台的连续控制。

双-线程部署架构

为了实现实时UAC,将推理和控制解耦到两个独立的线程中,它们通过共享的环形缓冲区B进行通信(如上图右):
• 控制线程(消费者)。以固定频率运行,从B中弹出动作并将其发送给机器人。如果缓冲区不足,它会保留最后一个动作或执行平台特定的安全回退机制,以避免不连续性。
• 推理线程(生产者)。异步运行:它获取观测值,执行整流去噪,并且仅将后缀动作写入B,从偏移量d开始。
将环形缓冲区的大小设置为至少是数据块长度的2倍,以降低典型延迟抖动下的下溢风险。轻量级互斥锁保护短暂读/写操作期间的并发访问,从而确保线程安全,而不会引入明显的阻塞。


真实实验

如图展示实验的硬件配置,对于每个任务,收集 30 至 60 分钟的真实机器人演示数据。在相同的评估框架下,将 Being-H0.5 与以下方法进行了比较:
请添加图片描述

• Being-H0.5-specialist:基于预训练的主干模型,进行针对特定具身的后训练,使用为该特定具身收集的完整任务集,针对每个机器人平台独立地微调模型。
• Being-H0.5-generalist:在所有具身和所有任务上进行联合后训练的单一检查点,使其能够部署在五个平台上。
• Being-H0.5-scratch:一个不使用 UniHand-2.0 预训练的基线模型(包含专家型和通用型)。它使用与 Being-H0.5 相同的 MoT 架构和后训练流程,但未通过 UniHand-2.0 进行以人为中心的机器人学习初始化。
• π0.5:一个具有竞争力的开源 VLA 基线模型,使用相同的每个具身的数据进行微调。值得注意的是,由于其针对特定实例的操作界面(需要对固定尺寸进行零填充),π0.5 本身不支持跨实例通用设置;因此,它仅在专家制度下进行评估。

仿真测试

在两个广泛使用的仿真基准数据集 LIBERO [135] 和 RoboCasa [136] 上评估 Being-H0.5,并将其与最新的 VLA 系统和专用机器人策略进行比较。除非另有说明,Being-H0.5 使用 224×224 分辨率的 RGB 观测数据,并采用 2B 骨干网络。

采用两种训练方案:(i)专精型,仅使用来自一个基准数据集(LIBERO 或 RoboCasa)的数据训练特定于该基准数据集的检查点;(ii)通用型,在 LIBERO 和 RoboCasa 上联合训练单个检查点。为了确保优化方面的公平比较,通用型模型的训练步数是专精型模型的两倍,这样模型在每个基准数据集上经历的更新步数相当,同时在两个测试平台上学习统一的策略。在评估阶段,同一个通用型检查点直接在每个基准数据集上进行评估,无需任何额外的调整。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐