χ0:通过驯服分布不一致性实现资源-觉察鲁棒操作
26年1月来自Kinetix AI的论文“χ0: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies”。传统上,高可靠性的长时域机器人操作依赖于大规模数据和计算来理解复杂的现实世界动态。然而,影响现实世界鲁棒性的主要瓶颈并非仅仅是资源规模,而是人类演示分布、策略学习的归纳偏差以及测试-时执行分布之
26年1月来自Kinetix AI的论文“χ0: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies”。
传统上,高可靠性的长时域机器人操作依赖于大规模数据和计算来理解复杂的现实世界动态。然而,影响现实世界鲁棒性的主要瓶颈并非仅仅是资源规模,而是人类演示分布、策略学习的归纳偏差以及测试-时执行分布之间的分布偏移——这种系统性的不一致性会导致多阶段任务中误差的累积。
为了缓解这些不一致性, χ0,一个资源高效的框架,其具备有效模块,旨在实现机器人操作的产品-级鲁棒性。该方法基于三个技术支柱:(i)模型算术,一种权重空间合并策略,能够有效地吸收不同演示的各种分布,涵盖从物体外观到状态变化等各个方面;(ii)阶段优势,一种阶段-觉察的优势估计器,能够提供稳定、密集的进度信号,克服先前非阶段方法的数值不稳定性; (iii) 训练-部署对齐,通过时空增强、启发式 DAgger 校正和时间分块平滑来弥合分布差距。
χ0 使两组双臂机器人能够协同协调长时程的服装操作,涵盖从展平、折叠到悬挂不同衣物等任务。本方法展现出高可靠性的自主性;能够让系统从任意初始状态连续运行 24 小时。实验验证,χ0 的成功率比目前最先进的 π0.5 高出近 250%,而仅需 20 小时的数据和 8 个 A100 GPU。
实现可用于生产的稳健性是现代机器人技术面临的巨大挑战。虽然自动驾驶车辆作为一种特殊的导航机器人,已成功在复杂的城市环境中展现出运行可行性[39, 77, 81, 26, 71, 72],但在非结构化环境中复制这种可靠性水平,并赢得用户的高度信任,仍然是一个尚未解决的难题。实现这种稳健性需要一种能够在广阔搜索空间中运行的策略,以应对物理世界固有的巨大环境变化。因此,当前的工业范式已转向规模化方法,利用海量计算资源来扩展基础模型[4, 3, 2, 22, 73, 96, 50]。
然而,尽管架构演进和资源扩展至关重要,但稳健策略执行的决定性因素并非仅仅是规模。本文关键洞见在于,在现实世界中广阔的策略搜索空间里,阻碍策略鲁棒性的“隐形恶魔”在于机器人学习三大支柱(数据收集、模型训练和策略部署)的分布之间存在不一致性。这些不一致性并非明显体现在成功率上,而是体现在执行的流畅性、系统吞吐量以及成功完成任务所需的重试成本上[13, 8, 69, 2, 31]。为了形式化进一步的分析,将机器人学习流程封装成涵盖整个研究周期的三个不同的分布:P_train,用于训练模仿策略的人类专家演示的分布;Q_model,策略学习到的归纳偏置的分布,即状态到合理动作的映射器;P_test,真实机器人部署期间执行的动作轨迹的分布,它与策略输出动作存在一定的延迟和物理限制。
以往的研究探索基于奖励、价值和优势的策略,以指导长时程任务中的动作选择[63, 19, 97, 85, 37]。这包括优势加权目标,例如优势加权回归(AWR),它使行为克隆(BC)倾向于优势更高的动作[60]。基于这些思想,π0∗.6训练一个分布价值模型来估计状态-动作(S-A)优势,并将其用于优势条件化VLA训练[2]。
实践中的一个关键限制是数值不稳定性:从价值差异计算出的优势可能存在噪声和高方差,尤其是在长时程的真实世界动态条件下。阶段优势通过直接从成对观测值预测优势,并基于语义阶段对信号进行条件化来解决这个问题,从而产生一个更平滑、更稳定的监督信号,该信号可以离散化为用于策略学习的二元最优性指标[12, 2]。
如图所示,大规模实际部署学习到的策略揭示该机制中存在的三个系统性缺陷。首先,由于任务维度极高,训练集 P_train 相对于完整的解流形而言本质上是稀疏的,导致模型 Q_model 严重偏向于有限的训练分布。其次,模型推理(Q_model)和控制级执行(P_test)之间的延迟引入时间错配,使得理论上最优的规划在推理过程中并非最优 [5, 76]。第三,尽管推理过程中频繁出现失败,但该策略缺乏故障恢复能力;即使遇到 P_train 中的状态,P_test 中的微小扰动也可能引发灾难性的发散,而系统无法从中恢复 [27, 59, 2]。
以往文献通过数据集扩展[83, 25, 61]、启发式或学习增强[83, 18, 17]以及自适应学习[83, 48, 64]等策略来解决这些观察到的不一致性。然而,由于域特定的限制,这些通用方法难以直接应用于机器人操作领域:收集专家演示数据的成本过高、推理到执行的延迟显著,以及训练大规模模型的计算负担沉重。为了弥合这一差距,本文提出χ0,一个旨在系统地解决物理机器人约束下这些分布不匹配问题的整体框架。
χ0的流水线如图所示:,模型运算通过在权重空间中合并基于互补数据子集训练的模型来扩展策略覆盖范围;阶段优势通过阶段-觉察优势估计来解决策略学习阶段的时间不匹配问题,从而实现稳定的长期监督;训练-部署-对齐通过推理优化和互补数据增强来闭合部署和训练之间的闭环。
模型算术
初始数据收集阶段专家演示的局限性,导致训练集 P_train 的覆盖率不足,进而使学习的策略偏向于狭窄的操作模式。为了缓解这一问题,一个直接的解决方案是增加专家演示的数量,直到 P_train 充分逼近 P_real。然而,对于服装操作而言,这种方法成本过高:每个数据收集周期都需要大量的操作时间。因此,这引出一个根本性的问题:如何在不扩展数据规模的情况下有效地缓解模型偏差?
模型算术 (MA),是一种权重空间合并策略,它结合在互补数据子集上训练的策略,并由基于验证的优化指导。与需要显式路由机制和复杂训练设计的专家混合模型 (MoE) [68, 20] 或结合模型输出的模型集成 [40] 不同,MA 直接合并参数以合成统一的策略。形式上,给定从训练集P_train中随机抽取子集{D_1, D_2, …, D_n},MA在每个子集上分别训练策略 {θ_1, θ_2, …, θ_n},并通过插值法合成它们的模型权重:θ_merged = sum(α_i θ_i),其中α_i ≥ 0,sum(α_i) = 1。{α_i}通过最小化验证集上的保留损失进行优化。θ_merged作为最终的Q_model用于部署。
MA算法首先将训练数据集D随机划分为互不重叠的子集{D_1, D_2, …, D_n},并在每个子集上训练单独的策略。由于每个子集的覆盖范围有限,这些策略自然会收敛到解流形的不同区域。因此,关键挑战在于如何最优地合并这些策略。在实践中,关键的设计选择在于验证集的选择。策略性地构建一个相对于所有训练子集(域内)分布外(OOD)验证集,以确保对合并策略进行无偏评估。具体而言,用通过 DAgger [62, 32] 收集的轨迹,这些轨迹来自在各个子集上训练的模型,因为这些恢复行为在任何原始训练数据中自然缺失。基于此验证集,实现并消融四种混合策略以获得最终的 θ_merged——平均加权、逆损失、梯度下降和贪婪搜索 [84]——如图所示。
通过验证引导的权重空间合成,MA 有效地将各种单峰策略合并为一个统一的多峰策略,无需额外收集数据即可减轻 Q_model 因覆盖不足而导致的偏差。
阶段优势
虽然模型算术能够有效地缓解 Q_model 偏差,但由于时间不匹配,最终的策略在 P_test 中执行长周期任务时仍然面临挑战:任务阶段间视觉上相似的状态会导致策略错误地应用行为,从而在长周期任务中造成累积误差并最终导致任务失败。阶段歧义需要明确的进度信号来消除任务进度背景下的动作质量歧义 [12]。这就引出一个关键问题:如何在长周期任务执行期间提供稳定且准确的进度信号?
先前的方法 [2] 使用优势作为进度信号,并结合优势加权回归 [85, 37] 来训练具有优势加权训练样本的策略。它隐式地获取优势,即 A(s, a) = V (s′)−V (s),取独立预测的进度值之差。然而,这种公式会放大逐帧估计噪声,从而产生高方差的训练信号。此外,在不考虑阶段信息的情况下估计全局任务进度会导致 V(s) 对多阶段任务呈现多值预测,进一步降低优势质量。
为了获得稳定且准确的优势信号用于模型训练,采用一种更直接的方法,将优势视为直接建模目标:A(s, a) = f_θ(s, s′),其中 f_θ 预测从 s 到 s′ 的相对进度。这使得优势估计简化为单一预测,避免误差累积,并产生更平滑、更可靠的状态间监督信号。在实践中,使用一种基于 VLM 的架构,该架构以成对图像输入作为优势估计器,如上上图所示。为了避免过拟合固定的时间离散化,通过随机采样时间跨度 ∆ 并设置 s′ = s_t+∆ 来构建训练对。
为了进一步解决长周期任务进度估计中的多值歧义问题,阶段优势(Stage Advantage)将任务分解为一系列语义阶段,每个阶段对应一个有意义的子目标。不评估整个任务周期内的动作,而是估计每个动作是否推进当前阶段,从而提供一个阶段-觉察的进度信号:A_stage(s, a, g) = f_θ(s, s′ | g)。实际上,用手动标注的阶段标签来表示阶段,将其表示为归一化标量 g ∈ {0, 1/S,…, (S−1)/S},其中 S 是阶段数,如上上图所示。下图显示基于阶段优势的累积值,该值对应于前面定义的任务。
参考 [12, 2],将连续的优势预测值阈值化为二元最优性指标 I = 1[A_stage > ε],其中 ε 是区分进度和非进度的阈值。这使得能够进行稳定的优势加权策略学习,提高 P_train 中高质量数据的权重,同时减轻 P_train 和 Q_model 之间的时间不匹配。
训练-部署-对齐
尽管策略具有长远规划能力,但实际部署过程中,模型预测值 (Q_model) 和测试预测值 (P_test) 之间仍会出现新的不一致性。推理控制延迟会导致动作执行错位和漂移误差累积,尤其对于输出动作块的动作分块策略而言:模型推理和动作块执行之间的时间间隔会破坏连续动作块之间的时间连续性,导致动作突变和操作稳定性下降。先前的工作通过推理时分块插值来解决这个问题 [95, 5, 76]。此外,如图下半部分所示,采用时间分块平滑来确保部署阶段动作执行的一致性。
数学上,令 aold表示包含上一个推理周期残留命令的当前动作缓冲区,anew 表示新预测的动作块。维护一个消耗索引 k,用于跟踪当前动作缓冲区中已执行的动作;一个丢弃阈值 d_max,用于丢弃因推理延迟导致的过期命令;以及一个最小重叠长度 m_min,用于确保插值的稳定性。基于这些,在算法 1 中提出详细的平滑过程。
在建立稳健的策略和可靠的部署流程之后,一个自然而然的问题出现了:能否利用 P_test 的部署经验来扩展 P_train,而无需增加数据收集工作量?回想一下,静态演示缺乏恢复行为,这使得策略容易受到故障级联的影响。通过两种互补的策略来解决部署和训练之间的最终不一致性,从而形成闭环。1) On-policy DAgger [62, 32] 将 P_train 扩展到故障邻近区域,但由于需要等待策略部署期间的自然故障,因此非常耗时。提出一种启发式 DAgger 变体,它直接在手动设计的故障状态(例如,抓取错位、部分掉落)下初始化系统,并收集恢复演示,从而将故障经验预先加载到数据收集中。 2) 为了进一步使零机器人时间(zero robot time)下的 P_train 多样化,应用时空增强:水平翻转和左右臂交换 [46],以及部分帧跳跃来合成速度变化,如上图所示。
评估框架针对协作式长时程服装操控,涵盖从任意状态展开、折叠、交接和悬挂等操作。选择这一系列任务,是因为它们具有丰富的接触、可变形的动力学特性以及状态恢复的要求,能够有效地隔离并放大上述分布变化。如图 展示详细的机器人设置:

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)