前言

如今具身技术迭代迅猛,26年春节期间,我会解读10篇最新论文,一为年后的加速应用/落地,琢磨方向、规划,二为同行提供借鉴,三为持续扩大影响力

  1. 言归正传,高可靠性、长时域的机器人操作传统上依赖大规模数据和算力来理解复杂的真实世界动力学
    然而,χ0的作者指出,真实世界鲁棒性的首要瓶颈并不仅仅在于资源规模,而在于人类示范分布、策略所学习到的归纳偏置、以及测试时执行分布三者之间的分布偏移——这是一种系统性不一致性,会在多阶段任务中引发误差的级联累积
  2. χ0提出了一个Model Arithmetic,一种在权重空间进行融合的策略,可高效吸收不同示范所对应的多样化分布,范围从物体外观到状态变化

说的直白点,之所以关注到这个,是源于我司年前在交付一个项目的时候,需要先让机器人学会开柜门,再之后会开各种柜门,最后还能移动到另一个位置做新的任务:按按钮

  • 对于第一步(先学会开柜门)
    在让机器人学会自行移动自身位置之前(需遥操采集全身数据),遥操机器人站在不同位置(即前、后、左、右、中)时,采集去开柜门的数据
    以让机器人学会根据门把手的位置,往左、右去抓门把手,或伸手、缩手去抓门把手

    且可以制造小错误并纠正
    \rightarrow  比如遥操采集时,先故意往门把手的左侧或右侧偏移,当要扑空时,再人工遥操修正运动轨迹,以抓取到门把手,如此 让模型学会如果目标出现偏移 需要自行纠偏 运动轨迹 以抓住
    \rightarrow  比如遥操采集时,故意失手下,即碰到了门把手但没抓稳,然后再继续遥操重试直至抓稳
    \rightarrow  再比如遥操采集时,直接把柜门整体往一旁挪动下,类似遥操机器人去抓纸巾时,快抓到后,人为挪动纸巾,然后摇操机器人改变角度 去抓被移动过后的门把手、被移动过后的纸巾,如此训练机器人学会面对门把手、纸巾突然被移动,而改变方向去抓取的能力

    至于“一次即抓成功”与“纠偏纠错抗扰”的数据比例,可以是8比2
  • 对于第二步(再学会开各种柜门)
    2.1 可以是一套通用权重
    把开不同柜门的数据按比例混合,然后一起丢进模型中进行SFT,得到一套权重
    当你给它看“A柜门”并输入指令“开A柜门”,这套权重里的相关神经元会被激活,输出开A柜门门的动作
    当你给它看“B柜门”并输入“开B柜门”,同一套权重会根据指令切换到开B柜门的模式

    2.2 也可以多套LoRA权重
    如果柜门类型差异较小,动作空间相似,则可以为不同的相近柜门训练不同的 LoRA 权重。在推理时,通过一个轻量级的分类器识别柜门类型,然后动态加载/挂载对应的 LoRA
    if detected == "cabinet":
        model.set_adapter("open_door_lora")
    elif detected == "button":
        model.set_adapter("press_button_lora")
    2.3 也可以混合专家MoE系统
    如果柜门之间的差异比较大,可以针对不同的柜门微调不同的模型(哪怕是同一个VLA 也是各自独立微调同一个VLA),得到不同的权重
    可以把开不同柜门的示范数据集,都给到同一个模型,然后得到一组权重,模型在面对不同柜门的时候,类似路由机制 去调用一组权重中 不同的权重部分

    即模型通过一个可学习的路由网络Router(即在VLA的Action Head部分替换为MoE层),根据输入的视觉特征(比如柜门的材质、把手形状),动态选择激活哪个部分的权重
    从而实现从:一个柜门一个模型,到一个模型针对不同柜门“路由调用”模型内部中的不同权重

    当然, 说白了,即如下下表所示
    方案 技术对应 核心机制 适用场景
    2.2. 软路由/混合 LoRA Merge / Task Arithmetic 根据输入动态混合多个LoRA的权重 柜门类型差异较小,动作空间相似
    2.3. 硬路由/MoE AdaMoE / Switch Transformer Router选择激活特定专家子网络 柜门差异大,需要完全不同的操作策略
  • 对于第三步(既可以开柜门,也会按按钮)
    再比如开完柜门之后,需要移动下机器人再去按按钮,在我们把这个开柜门和按按钮串起来之前(之后会用同一个全身VLA串起来)
    也是微调不同的模型去做不同的操作(开柜门和按按钮)

    那可否用开柜门、按按钮的示范数据集微调同一个模型,然后模型在需要开柜门、按按钮时,去调用同一个模型中一组权重中 不同的权重部分呢

    比如可以
    混合训练: 把餐厅场景下的 10-20 个核心任务(开柜门、按按钮)混合在一起 SFT
    最终产出: 得到一个高性能的 LoRA 权重,然后加载在VLA 底座上,便成了专属的“电力大脑”
    ————
    要让模型不混乱,最关键的是把所有任务变成同一种“格式”。在 SFT 训练脚本里,你的每一个数据样本都应该长这样:
    输入 (Input): [当前视觉图像] + [本体感受(臂角/位姿)] + [文本指令]
    输出 (Output): [预测的动作序列 (Action Chunk)]

不过,对我而言,每解读一论文 都是对具身落地的深入思考;对我司而言,每交付一项目 都是在朝『物理AGI』迈进

第一部分 χ0: Resource-Aware Robust Manipulation viaTaming Distributional Inconsistencies

1.1 引言与相关工作

1.1.1 引言

如原论文所述,对于机器人而言,在稳健的策略执行中,决定性因素并不仅仅是规模本身。作者认为在现实世界中面向策略的广阔搜索空间内,阻碍稳健性的这个” 隐藏的魔鬼”,是支配机器人学习三大支柱:

  1. 数据收集
  2. 模型训练
  3. 策略部署

这三者的分布之间的不一致性。这些不一致性并不会明显体现在成功率上,而是体现在执行的平滑性、系统吞吐量,以及成功完成任务所需的重试成本[13, 8,69, 2, 31]

作者将机器人学习流水线封装为贯穿整个研究周期的三个不同分布,以形式化后续分析

  1. P_{\text {train }}, 用于训练模仿策略的人类专家演示的分布
  2. \boldsymbol{Q}_{\text {model }} , 策略所学习到的归纳偏置的分布
  3. 一个将状态映射到合理动作的映射器\boldsymbol{P}_{\text {test }}
    在真实机器人部署过程中实际执行的动作轨迹的分布,它与策略输出的动作之间由于一定的延迟和物理限制而存在差异

在真实世界中大规模部署已学习的策略表明,在该范式下存在三类系统性不一致,如图1所示

  1. 首先,由于任务维度极高,相对于完整的解流形,P_{\text {train }}本质上是稀疏的,从而导致 \boldsymbol{Q}_{\text {model }} 严重偏向受限的训练分布
  2. 其次,模型推理(\boldsymbol{Q}_{\text {model }})与控制层执行(\boldsymbol{P}_{\text {test }})之间的时延会引入时间错配,使得在理论上最优的规划在实际推理时变得次优 [5,76]
  3. 第三,尽管在推理过程中频繁发生失败,策略却缺乏故障恢复能力;即使遇到位于P_{\text {train }} 内的状态,在 \boldsymbol{P}_{\text {test }} 中的轻微扰动也可能触发灾难性发散,使系统无法恢复 [27,59,2]

    既有文献通常通过数据集扩展 [83,25,61]、基于启发式或学习得到的增强 [83,18,17],以及自适应学习 [83,48,64] 等策略来应对这些观测到的不一致

    然而,将这些通用方法直接应用于机器人操作任务时,会受到一系列领域特定约束的阻碍:收集专家示范的成本极其高昂、从推理到执行存在显著时延,以及训练大规模模型所带来的计算负担

为弥合这一差距,来自Kinetix AI的研究者提出 χ0,这一整体性框架旨在在物理机器人系统的约束条件下,系统性地消除这些分布失配问题

具体而言,该方法建立在三个技术支柱之上,依次缓解这些不一致

  1. 模型算术(MA):train\rightarrowmodel
    MA 旨在将不同的数据子集(P_{\text {train }} ) 与策略的归纳偏置(\boldsymbol{Q}_{\text {model }} ) 对齐
    这种方法通过简单地合并在不同 P_{\text {train }} 上训练的检查点的权重,使策略能够有效地吸收各种 P_{\text {train }} 分布

    实验表明,MA 提供了一种资源高效的机制,可以在几乎所有指标上提升策略性能;作者发现,在 DAgger 数据上的验证损失可以作为对多个 checkpoint 进行加权的有效启发式指标
  2. 阶段优势(SA):model\rightarrowtest
    为了在新的部署环境(\boldsymbol{P}_{\text {test }} ) 下优化动作采样(\boldsymbol{Q}_{\text {model }} ) ,SA 将长时域任务分解为语义子目标(称为阶段),为优势加权行为克隆提供稳定且具阶段感知的奖励信号[60]

    图1 展示了这样一个思想:SA 使\boldsymbol{Q}_{\text {model }} 能够以更接近\boldsymbol{P}_{\text {test }} 的模态来采样动作
    此外,SA 通过逐帧奖励建模缓解了先前非阶段方法(如π∗0.6[2])中固有的数值不稳定性
  3. Train-Deploy-Alignment (TDA):train\rightarrowtest
    TDA 通过启发式 DAgger 和时空增强,将P_{\text {train }}朝向\boldsymbol{P}_{\text {test }}扩展,从而确保对真实世界分布漂移的鲁棒性
    作者进一步提出基于时间分块的平滑方法,以减轻推理-执行延迟并增强实时控制稳定性,在策略吞吐量和重试代价方面优于仅使用 RTC 的方法 [5,76]
    且作者在图1中展示了这一思想,即P_{\text {train }}\boldsymbol{P}_{\text {test }}中各模式的覆盖得到了提升

    实验证明,在 TDA 中,DAgger 数据对于最大化成功率至关重要,但代价是更高的重试成本。这种权衡符合直觉:DAgger 样本在恢复场景中最有价值,这意味着更高的重试频率与最终任务成功率正相关。我们还观察到,时空增强只有在与控制优化结合时才是有效的,其中,我们提出的按时间分块的时间平滑与 RTC [5] 是相互正交的

1.1.2 相关工作

首先,对于真实世界中的模仿学习与策略部署

  1. 模仿学习已经成为机器人操作的主流范式,从基于轻量级 Transformer 的策略 [95, 16, 15, 92] 扩展到基于大量机器人演示数据训练的基础 6, 34, 24, 9, 3, 2] 
    其中,π series [4,3,2] 由于利用大规模预训练数据集而展现出很强的泛化能力而脱颖而出。然而,此类数据集的构建 [33,58,8,30,79] 需要投入大量资源
  2. 为提高数据效率,已有工作探索了DAgger 风格的数据聚合 [62,32,27,2] 和数据增强[41,36,91,46]
    然而,DAgger 在策略 rollout 过程中需要实时人工监督 [62],因此数据采集依然十分耗时
  3. 除此之外,真实世界的部署还给这些策略带来了独特挑战:推理与控制之间的延迟会导致模型输出与物理执行之间的不匹配
    先前工作尝试通过执行端的优化 [95,5,76] 来缓解这一问题,但也引入了额外的推理开销

总之,现有方法往往只针对各个阶段,而不是在整个机器人学习周期:数据收集、模型训练和部署[11,75] 上联合施加分布一致性约束,作者通过P_{\text {train }} , \boldsymbol{Q}_{\text {model }} , \boldsymbol{P}_{\text {test }} 形式化这一挑战,并提出χ0 来对它们进行全面对齐

其次,对于模型合并与权重插值

  1. 模型合并已成为从多个神经网络整合知识的一种高效策略。早期在计算机视觉和自然语言处理领域的工作表明,在超参数扰动检查点之间对模型权重进行插值[84],或在针对不同任务微调后的模型之间进行权重插值 [84,29,87],可以提升泛化能力和鲁棒性
  2. 近年来,这些技术已被扩展到大语言模型 [1,89,35]、规划 [42] 和机器人学习 [80] 等领域
    这些方法通常依赖分布内指标来选择合并策略,而这可能无法充分考虑复杂操作任务中常见的幅度较小但关键的分布偏移

    与χ0的工作并行,RETAIN [88] 将模型合并用于自适应 VLA 策略,在提升目标任务的分布外(OOD)泛化能力的同时,更好地保留通用型技能
  3. χ0中的ModelArithmetic(MA,模型算术)——专门用于缓解由于专家示范有限、训练覆盖不完整而导致的模型偏差。即作者引入了一种使用 OOD 数据的新型验证协议——具体而言,是通过 DAgger 收集的恢复轨迹——以确保合并后的策略能够泛化到未见过的状态

此外,作者对多种策略合并方法进行了对比分析,包括统一加权、反损失加权、梯度下降和贪心搜索,以识别在减轻训练数据偏差方面最有效的综合方案

最后,对于长时程任务的优势估计

  1. 先前的工作已经探索了在长时间跨度任务中,将策略条件化在回报、价值和优势上以引导动作选择[63, 19, 97, 85,37]。这包括优势加权目标,例如优势加权回归(AWR),它使行为克隆偏向于优势更高的动作[60]
  2. 在这些思想的基础上,π∗0.6训练了一个分布式价值模型来估计状态-动作优势,并将其用于基于优势条件化的VLA 训练[2]

    然,在实际应用中,一个关键限制是数值不稳定性:由价值差分计算得到的优势(advantages)可能非常嘈杂并且具有高方差,尤其是在具有长时程的真实世界动态环境下

    χ0中的Stage Advantage 通过直接从成对观测中预测优势,并基于语义阶段对该信号进行条件化,从而获得更平滑、更稳定的监督信号;该信号还可以被离散化为策略学习所需的二元最优性指示器 [12,2]

1.1.3 预备知识与问题设定

为了形式化第I 节中介绍的分布式框架,作者考虑一个具有状态空间S、动作空间A和时域H 的有限期马尔可夫决策过程MDP

  1. 在固定环境参数化 ξ 下,轨迹\tau=\left(s_{0}, a_{0}, s_{1}, a_{1}, \ldots, s_{H}\right)依据现实世界动态s_{t+1} \sim T\left(\cdot \mid s_{t}, a_{t}, \xi\right) 发展,初始状态分布为\mu\left(s_{0}\right)

    相应地,由随机策略\pi(a \mid s ; \phi)引发的轨迹分布可定义为 [65, 44]P_{\pi}(\tau)=\mu\left(s_{0}\right) \prod_{t=0}^{H-1} \pi\left(a_{t} \mid s_{t} ; \phi\right) T\left(s_{t+1} \mid s_{t}, a_{t}, \xi\right)
    当策略π 不含歧义时缩写为P
  2. 首先将Preal 定义为在成功完成任务的轨迹上的分布
    \mathcal{G} 表示成功轨迹的集合, 使得P_{\text {real }}(\tau) \propto \mathbf{1}\{\tau \in \mathcal{G}\}, 描述在真实世界动力学下实现任务完成的所有有效动作序列的流形

利用P_{\text {real }} 作者现在形式化支撑对齐目标的三个分布

  1. 训练分布P_{\text {train }} 由真实机器人上的人类专家演示所诱导得到
    给定P_{\text {train }} , 令\mathcal{D}=\left\{\tau^{(i)}\right\}_{i=1}^{N}表示演示的集合
  2. 模型Q_{\text {model }} \triangleq \pi(a \mid s ; \hat{\phi})通过在演示集合D 上最大化
    \sum_{t} \log \pi\left(a_{t} \mid\right.\left.s_{t} ; \phi\right)
    来学习得到[62,57]
  3. 最后, 真实机器人的执行通过将Q_{\text {model }} 与推理算子I\left(\tilde{a}_{t} \mid a_{t}, s_{t}\right)组合来产生P_{\text {test }}
    P_{\mathrm{test}}(\tau)=\mu\left(s_{0}\right) \prod_{t=0}^{H-1} \pi\left(a_{t} \mid s_{t} ; \hat{\phi}\right) \tilde{T}\left(s_{t+1} \mid s_{t}, a_{t}, \xi\right)
    其中\tilde{T}\left(s_{t+1} \mid s_{t}, a_{t}, \xi\right) \triangleq \mathbb{E}_{\tilde{a} \sim I\left(\cdot \mid a_{t}, s_{t}\right)}\left[T\left(s_{t+1} \mid s_{t}, \tilde{a}_{t}, \xi\right)\right],并且\tilde{a}_{t}表示实际执行的动作

如上文中所讨论的,现实世界部署揭示了这些分布在不同阶段之间存在三种系统性不一致。作者将其归类为:

  1. 覆盖缺失:P_{\text {train }}对高维流形P_{\text {real }} 采样不足,从而使Q_{\text {model }} 偏向于受限的训练支持
  2. 时间不匹配:长时域任务在不同阶段会产生视觉上相似但语义上不同的状态,导致Q_{\text {model }} 误用时间知识,而推理-控制延迟也会在执行层面造成时间不匹配,所有这些最终在P_{\text {test }} 中表现为失败或停滞不前
  3. 失败级联:P_{\text {train }} 中缺乏恢复行为,使策略无法从P_{\text {test }} 中的扰动中自我纠正

而作者的方法试图通过有针对性的对齐策略来解决每一种不一致性,详见下文各节

1.2 χ0的完整方法论

如原论文所述,为了一致地解决上文中识别出的三种分布不一致问题,χ0提出了以下三大技术

  1. Model Arithmetic 通过在权重空间中合并在互补数据子集上训练的模型来扩展策略覆盖范围
  2. Stage Advantage 通过阶段感知的优势估计,在策略学习阶段解决时间错配问题,以实现稳定的长时序监督
  3. Train-Deploy-Alignment 通过推理优化和互补数据增强闭合部署与训练之间的循环

1.2.1 模型算术(Model Arithmetic):在不扩展数据规模的情况下,如何高效地缓解模型偏差

在初始数据收集阶段有限的专家示范导致Ptrain 中的覆盖不足,这进一步使学习到的策略偏向于狭窄的操作模式

  1. 为缓解这一问题,一个直接的解决方案是扩大量化专家示范数据,直到P_{\text {train }} 充分逼近P_{\text {real }}
    然而,对于服装操作而言,这样做的代价极高:每一个数据采集周期都需要大量的操作时间
  2. 因此,这引出了一个基本问题:在不扩展数据规模的情况下,如何高效地缓解模型偏差?
    对此,作者提出了模型算术(Model Arithmetic, MA),这是一种在权重空间进行合并的策略,通过验证集上的优化来引导,将在互补数据子集上训练得到的策略进行组合

不同于需要显式路由机制和复杂训练设计的Mixture-of-Experts(MoE)方法[68, 20],或者将模型输出进行组合的模型集成方法[40]MA 直接在参数层面进行合并,从而合成一个统一的策略

  1. 形式上,给定从P_{\text {train }} 中采样得到的已收集数据子集\left\{D_{1}, D_{2}, \ldots, D_{n}\right\}
    MA 在这些子集上独立训练策略\left\{\theta_{1}, \theta_{2}, \ldots, \theta_{n}\right\}
  2. 并通过插值来合成它们的模型权重:\theta_{\text {merged }}=\sum_{i=1}^{n} \alpha_{i} \theta_{i}, 使得\alpha_{i} \geq 0, \quad \sum_{i=1}^{n} \alpha_{i}=1
    \left\{\alpha_{i}\right\}通过最小化在验证集划分上的保留损失进行优化。\theta_{\text {merged }} 作为最终部署的Q_{\text {model }}

MA 首先将训练数据集D 随机划分为互不重叠的子集\left\{D_{1}, D_{2}, \ldots, D_{n}\right\},并在每个子集上分别训练策略。由于每个子集的覆盖范围有限,这些策略自然会收敛到解流形上的不同区域。关键挑战随之变为如何最优地合并这些策略

  1. 在实践中,关键的设计选择在于验证集的选取。作者有策略地构造了一个相对于所有训练子集(in-domain)都是分布外(OOD)的验证集,以确保对合并策略的无偏评估
  2. 具体而言,作者使用通过DAgger [62, 32] 从在各个子集上训练的模型收集到的轨迹,因为这些恢复行为在任何原始训练数据中都自然缺失
    基于该验证集,作者实现并对四种souping 策略进行了消融,以获得最终的\theta_{\text {merged }}——平均加权、反损失、梯度下降以及贪心搜索[84]——如图3 所示

通过基于验证引导的权重空间合成,MA 有效地将多样的单模态策略融合为一个统一的多模态策略,在无需额外数据收集的情况下,缓解了由覆盖不足引起的Q_{\text {model }} 偏差

1.2.2 阶段优势Stage Advantage

尽管 Model Arithmetic 能够高效缓解 Q_{\text {model }} 偏差,所得策略在 P_{\text {test }} 中进行长时域执行时仍然表现不佳,其根源在于时间错配:不同任务阶段中在视觉上相似的状态会导致策略误用行为,从而在长时域上产生累积误差并最终导致任务失败

这样的阶段歧义需要显式的进度信号,以便在任务进展的上下文中对动作质量进行消歧 [12]

这引出了一个关键问题:如何在长时域执行过程中提供稳定且准确的进度信号?

  1. 以往方法 [2] 将优势(advantage)作为进度信号,并结合 advantage-weightedregression [85,37],利用按优势加权的训练样本来训练策略
    该方法通过A(s, a)=V\left(s^{\prime}\right)-V(s)隐式地获得优势,即取相互独立预测的进度价值之差
  2. 然而,这种形式会放大逐帧估计噪声,从而产生高方差的训练信号
    此外,在缺乏阶段感知的情况下估计全局任务进度,会使得V(s)在多阶段任务中呈现多值预测,进一步损害优势估计的质量

为了获得用于模型训练的稳定且准确的优势信号,作者采用一种更为直接的方法,将优势视为直接建模的目标:A(s, a)=f_{\theta}\left(s, s^{\prime}\right),其中f_{\theta} 预测从ss^{\prime}的相对进展

这将优势估计重新表述为单一预测,避免了误差累积,并生成了更平滑、更可靠的从一个状态到另一个状态的监督信号

在实践中,作者使用一种基于VLM 的架构,将成对的图像输入作为优势估计器,如图2 所示

为避免对固定时间离散化的过拟合,作者通过随机采样一个时间跨度\Delta并令s^{\prime}=s_{t+\Delta}来构造训练样本对

  1. 为了进一步解决对长时间跨度任务进行进度估计时的多值模糊性,Stage Advantage 将任务分解为一系列语义阶段,每个阶段对应一个有意义的子目标
  2. 不是在完整任务时间跨度上评估动作,而是估计每个动作是否推进了当前阶段,从而提供一个具备阶段感知的进度信号:A_{\text {stage }}(s, a, g)=f_{\theta}\left(s, s^{\prime} \mid g\right)
    在实践中,作者使用人工标注的阶段标签,将阶段表示为一个归一化标量g \in\left\{0, \frac{1}{S}, \ldots, \frac{S-1}{S}\right\},S 是阶段数目,如上图图2的左下角所示

    ————
    图4 展示了基于阶段优势的累积价值,对于第IV-A 节中定义的任务

参考[12, 2],作者将连续的优势预测进行阈值化,得到一个二元最优性指示器I=\mathbb{1}\left[A_{\text {stage }}>\right.\epsilon],其中\epsilon 是将” 有进展” 和” 无进展” 区分开的阈值

这样可以实现稳定的优势加权策略学习,提高来自P_{\text {train }} 的高质量数据的权重,同时缓解P_{\text {train }}Q_{\text {model }} 之间的时间错配

1.2.3 训练-部署-对齐

尽管具有长期规划能力的策略已经相当稳健,但在真实世界中部署时,在Qmodel 和Ptest 之间仍会引入新的不一致性

  1. 推理-控制延迟会导致动作执行错位和漂移误差累积,尤其是对于输出动作块的动作分块策略:模型推理与动作块执行之间的间隙打破了连续动作块之间的时间连续性,导致突兀的转换并削弱操作稳定性
  2. 已有工作通过推理阶段的动作块插值来解决这一问题[95, 5, 76]。此外,作者采用按时间分块的平滑处理,以在部署阶段确保动作执行的一致性,如图5 底部所示

从数学上讲,令a^{\text {old }} 表示当前动作缓冲区,其中包含来自先前推理周期的残余指令,a^{\text {new }} 表示新预测的动作片段。作者维护一个消费索引k 来跟踪当前动作缓冲区中已执行的动作,一个丢弃阈值d_{\max } 用于丢弃由于推理延迟导致的过时指令,以及一个最小重叠长度m_{\min } 以确保稳定的插值

基于这些,作者在算法1 中给出详细的平滑过程

在建立了稳健的策略和可靠的部署流水线之后,一个自然的问题出现了:能否利用来自P_{\text {test }} 的部署经验,在不进行额外大量数据收集的情况下扩展P_{\text {train }} ?

回顾一下,静态示范缺乏恢复行为,使得策略容易产生失败级联。作者通过两种互补策略,将部署与训练闭环,来解决这一最后的不一致性

  1. On-policy DAgger [62, 32] 将P_{\text {train }} 扩展到接近失败的区域,但这一过程十分耗时,因为它需要在策略部署过程中等待自然发生的失败
    作者提出了一种启发式DAgger 变体,它直接初始化在人工设计的失败状态下设置系统(例如,抓取错位、部分掉落),并收集恢复演示,将失败经验预先融入数据收集中
  2. 为了在机器人零运行时间的条件下进一步丰富P_{\text {train }} ,作者采用时空增强:水平翻转并交换左右手臂[46],以及部分跳帧,以合成在图5 中展示的速度变化,细节见附录

1.3 实验

作者的评估框架面向协作式长时程衣物操作任务,涵盖从任意状态的摊平、折叠、物体交接以及悬挂

作者宣称,之所以选择这一系列任务,是因为其接触丰富、可变形的动力学特性以及对状态恢复的要求,能够有效地隔离并放大前述的分布偏移

作者在图6中展示了详细的机器人设置

并系统性地研究以下研究问题:

  1. 系统效能拆解
    各个组件在集成时是如何协同以提升整体性能的,还是在集成时会产生冲突?
  2. 模型算术
    基于子集训练的候选模型的 MA,能否同时优于其中单个最优候选模型以及使用全量数据训练的候选模型?在不同策略之间,哪一种验证划分(域内 vs. OOD)在统计上表现出更稳健的优势?
  3. 阶段优势
    预测按阶段条件化的优势,是否比价值差分基线(π∗ 中的 RECAP)提供更稳定的监督?0.6[2]),以及这如何这如何转化为策略的成功?
  4. Train-Deploy-Alignment
    通过 Heuristic DAgger扩展 P_train,是否能够在与标准 DAgger 相比仅带来轻微重试成本增加的情况下提升性能?不同的控制方法在时空数据增强下是如何起作用的?

1.3.0 评估任务与指标、数据收集与训练策略、基线方法与消融设计、χ0system 系统效能拆解

第一,对于评估任务与指标

作者在三个具有不同复杂度的高难度服装操控任务上对他们的方法进行了评估

  • 任务 A:T 恤摊平与折叠(简单)
    这是来自 π 系列[4,3,2] 的标准洗衣任务的一个简化变体。机器人必须将处于任意初始形态的 T 恤摊平并完成折叠
    若能在 180秒内将完全折好的 T 恤放置到桌子中央,则视为成功
  • 任务B:条件件检索与排序(中等)
    这是π 序列任务[4,3,2]的扩展,涉及条件逻辑
    系统从变化的初始状态中取回并摊平T 恤或有领衬衫。T 恤必须被折叠并堆叠在左上角,而有领衬衫必须被递交到右侧,两者都需在180 秒内完成
  • 任务 C:衣物挂放(困难)
    本任务在 GR- 3 [10] 的基础上扩展,要求从任务 B 中取回已摊平的有领衬衫,并将其挂到衣架杆上。成功被定义为衣物能够稳定地悬挂在杆上且不掉落

作者报告四个指标(均值±累积标准误差),针对三种服装类型,每种进行 10 次试验进行计算

  1. 成功率(SR)衡量的是成功完成任务的试验所占的百分比(数值越高越好)
  2. 吞吐量(TP)量化的是每小时预计完成的任务数量(越高越好)
  3. Retry Cost 是在评估过程中每个 episode 平均的动作重试次数(越低越好)
  4. Average Score 源自一个基于规则的评估协议。作者为各个子任务定义特定的里程碑,并在其完成时给予部分得分;随后将得分归一化到 100。附录中列出了度量计算方法和任务细节

第二,对于数据收集与训练策略

作者为每个任务整理∼20 小时的专家示范数据,涵盖多样的衣物状态(颜色、材质)、初始状态以及环境光照。且在8 × A100GPUs 上采用流匹配目标[4] 进行全参数微调。关于超参数和数据收集细节请参见附录

第三,对于基线方法与消融设计

  • 基础策略
    作者选择π0.5 作为主要基础策略,并辅以π0,因为这两者是仅有的在作者的任务上能够达到可行性能的开源策略
    因为作者宣称,尽管 GO-1 [8]、X-VLA [96] 和 DexVLA [82] 在类似领域据称具备相应能力,但即便在对全部 20 小时的数据集进行训练之后,它们仍未达到可接受的性能水平
  • MA 消融实验
    作者建立两个基线:
    单一最佳候选(从在各个子集上训练的策略中选出)和全数据候选(在聚合数据集上训练)
    ————
    作者考察在不同模型合并技术下,域内和OOD 验证划分的稳健统计优势:
    \rightarrow  平均加权[84](通过设定\alpha_{i}=1 / n来分配均匀权重);
    \rightarrow  反损失[54](与每个检查点验证损失L_{i} 成反比,在归一化后设定\alpha_{i} \propto 1 /\left(L_{i}+\epsilon\right)^{p}
    \rightarrow  梯度下降及其自适应不变形式[28](通过迭代更新,最小化\theta_{\text {merged }}的合并验证损失验证损失\mathcal{L}_{v a l}\left(\sum_{i} \alpha_{i} \theta_{i}\right),得到softmax 参数化的系数\alpha=\operatorname{softmax}(w)
    \rightarrow  以及贪心搜索[84](在候选者之间采用均匀平均的前提下,迭代地加入使验证损失下降最多的检查点
  • SA 消融实验
    作者与在π0.5 [3] PaliGemma 上自实现的RECAP[2] 基线进行比较,该基线被训练为在给定当前帧的情况下估计进度
    优势信号来源于同一轨迹中、相对于未来 50 步时间视野的 value(progress) 差值
  • TDA 消融实验
    作者将时间块级平滑与同步/异步推理 [76]、时间集成 [95] 以及 RTC [5] 进行比较
    且在不同的时空增强设置下评估控制方法,以确定最优配置
    此外,作者通过将标准 DAgger [62] 与我们的 Heuristic DAgger 进行比较来评估数据增强的影响,同时考察这些方法在 π0[4] 和 π0.5[3]架构上的性能差异和泛化能力

第四,对于系统效能拆解

在图 7 中『χ0 系统在任务 A——T 恤摊平与折叠上的效果。随着单个模块的加入,性能得到提升;在两两组合设置下进一步提高,并在使用完整的 χ0 系统(作者的方法)时达到最大

作者给出了 χ0system 系统在任务 A 上各个模块的性能拆解。通过为每个模块(MA、SA、TDA)选择最优配置——确保了系统集成的有效性,使得随着组件的加入,整体性能单调提升

具体而言,SA 是吞吐量的主导因素,而 TDA决定了成功率的提升,但会带来更高的重试开销成本。这与作者的洞见是一致的:TDA 会鼓励持续重试——这种行为在提高任务完成率的同时,自然会以增加运行成本为代价

1.3.1 模型算术结果(Model Arithmetic Results)

图8 在所有指标上给出了全面分析,将MA 变体与非MA基线进行对比,并量化不同MA 策略之间的性能差异『在任务 C——衣物挂放上对 MA 的消融实验。尽管在某些实现中重试成本有所增加,所有 MA 变体在吞吐量和成功率方面都显著优于单一最优和全数据候选方案,且具有稳健的统计显著性。此外,相较于域内验证,OOD 验证表现出更高的稳定性和更小的标准误差

  1. 首先,所有MA 变体都优于单一最佳候选模型和全数据基线,验证了该方法的有效性
    值得注意的是,将在子集上训练得到的模型权重进行合并,其效果优于在合并数据集上进行训练(联合训练)
    这一结果表明,微调后的VLA可能呈现出极端的参数冗余性,与在LLM 中观察到的现象类似[90]
  2. 其次,相较于域内数据,OOD 验证数据被证明是更稳健的选择标准,在所有指标上都带来了更低的标准误和更高的性能
    这一发现支持了作者的假设,即OOD 数据(例如DAgger)能够有效弥合P_{\text {train }}P_{\text {test }}之间的鸿沟。因此,利用DAgger 数据来校准混合权重,可以确保Q_{\text {model }} 优先选择P_{\text {train }} 中与部署动态相一致的模态
    在各类MA 策略中,贪心搜索在多种设置下表现最为有效。这进一步强化了作者的结论:基于DAgger 数据的验证损失能够准确反映分布差异,从而使Q_{\text {model }} 提升对模态的覆盖度,以改善测试时的泛化能力[11]

当然了,本文中的Model Arithmetic 是否能够融合彼此截然不同的任务策略,而不仅仅是策略的子集,以推动通用机器人技术的发展,这一点仍有待验证

// 待更

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐