1. 题目、时间、机构、关键词

  • 题目:Mixture of Horizons in Action Chunking
  • 时间:2025年11月
  • 机构:RUC, UNC, CUHK
  • 关键词:Vision-Language-Action (VLA) models, action chunking, mixture of horizons (MoH)

2. 通俗总结

作者发现视觉-语言-动作(VLA)模型在机器人操控时,训练用的“动作块长度”(即horizon,指一次预测的未来动作时间跨度)存在固有矛盾:长跨度能帮模型做全局规划,却会降低精细操作精度;短跨度能提升局部控制准确性,却难以处理长流程任务。为解决这一问题,他们提出“混合跨度策略(MoH)”——把动作块拆成不同跨度的片段,用共享的动作Transformer并行处理,再通过轻量线性门融合各片段结果;还设计了基于跨跨度共识的动态推理,能选到稳定动作。最终在模拟任务(如LIBERO、RoboTwin2.0)和真实机器人任务(放面包、倒牛奶等)中都显著提升性能,比如LIBERO上π0.5模型加MoH后平均成功率达99%,刷新了该基准的最优结果。

3. 核心创新点(相较于前人)

  1. 突破固定跨度局限:前人VLA模型均采用单一固定跨度,无法兼顾长任务规划与短任务精细控制;MoH首次在单一模型中融合多跨度,同时利用长跨度的全局 foresight(预见性)和短跨度的局部 precision(精度),从根本上缓解跨度固有矛盾。
  2. 插件式低开销设计:前人改进动作建模的方法常需重构模型架构,计算成本高;MoH可无缝接入任何全注意力动作模块(无论流匹配型还是一步预测型),仅新增2k参数的线性门,训练和推理开销极小。
  3. 动态推理优化效率:前人推理时固定执行动作块长度,灵活性差;MoH通过跨跨度共识动态选择“各跨度都认可”的稳定动作,在将吞吐量提升2.5倍的同时,仍保持比基线更优的性能,平衡了效率与稳定性。

4. 要解决的问题

  1. VLA模型的跨度固有矛盾:动作块跨度(horizon)选择存在trade-off——长跨度提升长流程任务(如抽屉取物并关闭)性能,但降低精细操作(如精准倒牛奶)精度;短跨度相反,固定跨度导致模型在复杂混合任务中性能次优。
  2. 固定跨度的灵活性不足:现有方法用固定跨度训练,推理时无法根据任务难度(如简单平移vs精细抓取)自适应调整动作块长度,难以平衡延迟与操控稳定性。
  3. 多跨度融合的高效性问题:若为覆盖多跨度单独训练多个模型,会大幅增加计算成本;需设计单模型内高效融合多跨度的方案,避免额外开销。

5. 解决方法/算法通俗解释及整体流程

通俗解释

把原本“一次预测固定长度(如30步)的动作块”,拆成多个不同长度的小片段(比如同时包含10步、20步、30步的片段);这些片段共用一个“动作Transformer”(模型核心计算模块)并行处理,避免重复计算;再用一个“线性门”(类似“权重分配器”)给每个片段的预测结果打分,权重高的片段贡献更多,最终融合出最优动作。训练时还加了“平衡损失”,防止模型只偏爱某一个跨度;推理时,只执行“所有有效跨度都认可”的动作,不确定的动作留到下次规划。

整体流程

  1. 输入处理:将视觉图像(多视角)、语言指令(如“把摩卡壶放灶上”)、 proprioceptive state(本体感知状态,如机械臂关节角度)输入预训练VLM,得到上下文表示。
  2. 动作块重构:固定最大跨度(如30),构建不同跨度的动作块片段(如{3,6,…,30}),对短片段补零至最大长度,并用跨度专属掩码屏蔽无效位置(如3步片段的4-30步设为无效)。
  3. 并行计算与融合:所有片段输入共享的动作Transformer,得到各跨度的预测结果;线性门计算每个跨度在每一步的权重,融合得到最终动作预测。
  4. 训练优化:损失函数包含三部分——融合结果的损失(L_mix)、各跨度单独预测的损失总和(L_ind)、平衡损失(L_bal,防止模型偏爱某一跨度),其中λ_ind=1、λ_bal=1e-3(经验设定)。
  5. 动态推理:推理时计算各跨度预测与融合结果的差异,以前n步(如5步)的平均差异为阈值,选择差异小于阈值且有效跨度数足够的最长动作前缀执行,剩余动作留到下次规划。

6. 基于的前人方法

  1. VLA模型基础框架:借鉴π系列模型(Kevin Black et al., 2024的π0、Lucy Xiaoyang Shi et al., 2025的π0.5)和回归型πreg的架构,以预训练VLM(如PaliGemma)为基础,搭配动作Transformer实现端到端机器人操控。
  2. 动作块划分(action chunking)技术:继承ACT(Tony Z. Zhao et al., 2023)、CogACT(Qixiu Li et al., 2024)中“预测动作序列而非单步动作”的思路,通过动作块提升控制平滑性和高频控制能力。
  3. 全注意力动作建模:沿用前人(如π0、OpenVLA)的全注意力Transformer结构,利用非自回归解码提升动作块预测效率,避免自回归的累积误差。
  4. 流匹配与一步回归政策:以π0的流匹配(flow-matching)政策(学习从噪声到动作的映射)和πreg的一步回归政策(直接预测连续动作)为基础,MoH兼容两种政策类型。
  5. 混合专家的平衡损失:参考混合专家(mixture-of-experts)模型(William Fedus et al., 2022)中的负载平衡损失思想,设计L_bal确保多跨度被均衡利用,避免跨度偏好。

7. 实验设置、数据、评估方式

实验设置

  1. 基础模型:流匹配型π0、π0.5,回归型πreg(基于π0微调,新增可学习查询token实现一步回归),均基于PaliGemma预训练VLM。
  2. 训练配置
    • LIBERO:30k迭代,批大小32,4×A100 GPU,AdamW优化器,余弦学习率衰减(初始5e-5,最小1e-6,热身1k步);
    • RoboTwin2.0:20个epoch,每个任务50个专家演示,学习率2.5e-5;
    • 真实任务:10k迭代,批大小32,每个任务30个专家演示。

数据

  1. 模拟数据
    • LIBERO:4个任务集(Spatial、Object、Goal、Long),各10个任务,每个任务500个演示,覆盖空间布局、物体、目标、长流程场景;
    • RoboTwin2.0:50个双手机器人任务,分“简单模式”(域内布局)和“困难模式”(域随机化:场景杂乱、光照变化等),选7个代表任务测试。
  2. 真实数据:3个真实机器人任务(T1:放面包进碗,T2:倒牛奶进杯,T3:放笔进抽屉并关闭),每个任务10次测试,测试前扰动物体位置确保公平性。

评估方式

  1. 核心指标:成功率(success rate,任务完成的试验数/总试验数)。
  2. 模拟评估
    • LIBERO:每个任务集500次试验,执行动作块前5步;
    • RoboTwin2.0:每个任务100次试验,执行动作块前20步;
  3. 真实评估:每个任务10次试验,记录任务完成情况,限制短任务2000步、长任务3000步内完成。
  4. 消融实验
    • 跨度密度:固定最大跨度30,测试跨度步长d=1,2,3,5,10的影响;
    • 组件验证:对比损失重加权、平均融合、无平衡损失的性能;
  5. 效率评估:测量训练(每迭代秒数)和推理(每动作块秒数)时间,验证MoH的低开销。

8. 客观评价本文的价值

理论价值

  • 系统揭示了VLA模型中动作跨度的固有trade-off,为跨度选择提供了实证依据,填补了“多跨度融合建模”的理论空白;
  • 提出“混合跨度”范式,将动作建模从“单一时间尺度”扩展到“多时间尺度”,为VLA模型的时间维度优化提供新方向。

方法价值

  • 插件式设计提升实用性:无需重构现有VLA模型,即可直接集成MoH,降低工业界应用门槛;
  • 动态推理兼顾效率与性能:2.5倍吞吐量提升对实时机器人操控(如物流分拣、家庭服务)具有重要实际意义。

实验价值

  • 验证充分:在模拟(LIBERO刷新SOTA,π0.5+MoH达99%成功率)、真实任务中均验证有效性,消融实验明确各组件必要性,结果可靠;
  • 对比全面:与Octo、OpenVLA、X-VLA等10+主流VLA模型对比,凸显MoH的性能优势。

局限性

  • 未解决VLA模型的感知与指令理解问题:若模型误识别目标(如把碗认成盘子)或误解指令,MoH无法修正,仍会导致失败;
  • 真实任务覆盖有限:仅测试3个简单真实任务,需在更复杂场景(如多物体协作、动态环境)中进一步验证泛化性。

9. 相关性最高的3个文献

  1. Kevin Black, Noah Brown, Danny Driess, et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv:2410.24164.
    (本文基础模型π0、πreg的来源,核心VLA框架参考,解决相同的VLA模型动作建模问题,本文是对其跨度矛盾的关键改进)
  2. Lucy Xiaoyang Shi, Brian Ichter, Michael Equi, et al. (2025). Hi Robot: Open-ended instruction following with hierarchical vision-language-action models. arXiv:2502.19417.
    (提出π0.5模型,本文将其作为核心基础模型之一,均关注VLA模型的长流程任务能力,本文针对π0.5的跨度局限提出MoH解决方案)
  3. Tony Z. Zhao, Vikash Kumar, Sergey Levine, et al. (2023). Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware. Robotics: Science and Systems.
    (首次普及“动作块划分(action chunking)”技术,本文的研究核心是该技术中的“跨度选择”问题,是对动作块技术的关键优化与延伸)
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐