SOP：一种可扩展的在线视觉-语言-动作模型后训练系统

26年1月来自智元研究和上海创新研究所的论文“SOP: A Scalable Online Post-Training System for Vision-Language-Action Models”。视觉-语言-动作（VLA）模型通过大规模预训练实现强大的泛化能力，但实际部署除需要广泛的泛化能力外，还需要专家级的任务熟练度。现有的VLA模型后训练方法通常是离线的、单机器人的或针对特定任务的，这

硅谷秋水

1378人浏览 · 2026-01-19 00:15:00

硅谷秋水 · 2026-01-19 00:15:00 发布

26年1月来自智元研究和上海创新研究所的论文“SOP: A Scalable Online Post-Training System for Vision-Language-Action Models”。

视觉-语言-动作（VLA）模型通过大规模预训练实现强大的泛化能力，但实际部署除需要广泛的泛化能力外，还需要专家级的任务熟练度。现有的VLA模型后训练方法通常是离线的、单机器人的或针对特定任务的，这限制有效的策略内自适应以及从真实世界交互中可扩展地学习。提出一种可扩展的在线后训练（SOP）系统，该系统支持在物理世界中直接对通用型VLA模型进行在线、分布式、多任务的后训练。SOP通过闭环架构将执行和学习紧密耦合，其中一组机器人持续地将策略内经验和人类干预信号流式传输到集中式云Learner，并异步接收更新的策略。这种设计支持快速的策略内修正，通过并行部署扩展经验收集，并在自适应过程中保持泛化能力。SOP与后训练算法的选择无关；用交互式模仿学习（HG-DAgger）和强化学习（RECAP）对其进行实例化。在包括布料折叠、纸箱组装和超市补货在内的一系列真实世界操作任务中，证明SOP能够显著提升大型预训练VLA模型的性能，同时保持跨任务的单一共享策略。有效的后训练可以在数小时内完成，并且性能与机器人数量呈近线性增长。

可扩展的在线后训练（SOP）如图所示：一组机器人不断收集各种任务的经验，将交互数据流式传输到集中式云服务器，并异步接收更新的控制策略——使 VLA 模型能够在保持通用性的同时提高每项任务的熟练度。

将所考虑的机器人控制问题建模为马尔可夫决策过程（MDP）M = (S, A, T, r, γ)，其中S是状态空间，A是动作空间，T(s′ | s, a) 和 r(s, a) 分别表示状态 (s, a) 处的转移动态和环境奖励，γ ∈ (0, 1] 是折扣因子。对于VLA模型，状态s通常包含视觉观测、语言指令和机器人本体感觉信息。策略π_θ(a | s) 定义给定状态s时动作的分布；在每个步骤中，智体对a ∼ π_θ(· | s) 进行采样，并转移到s′ ∼T(· | s, a)。

考虑一个分布式机器人系统。N 个机器人部署在不同的环境中，执行不同的任务。用域变量 φ 来建模异构性，由此产生一系列马尔可夫决策过程 (MDP) M(φ)。具体来说，第 i 个机器人的交互由 Mⁱ := M(φ_i) 控制，其中 φ_i ∼ p(φ)，i = 1, 2, …, N。后训练的目标是利用从机器人集群收集的在线交互数据，将预训练的基础策略 π_θ_0 适配到每个部署域。这通常涉及多轮优化过程。在第 k 次迭代中，机器人执行当前策略 π_θ_k，并将轨迹（包括自主运行和潜在的人工干预）收集到数据集 D_k 中。然后，通过最小化基于收集样本定义的后训练目标来更新策略。L_PT 表示与特定选择后训练算法 G 对应的后训练损失，可以表示为对数似然损失或基于扩散/流的损失。

一种可扩展的在线后训练（SOP）框架，是一个闭环的 Actor-Learner 框架，用于利用来自异构机器人集群的持续真实世界交互来调整预训练的 VLA 策略。SOP 包括：(i) 由机器人 Actor 进行分布式策略内数据采集；(ii) 对混合在线和离线数据进行集中式云优化；以及 (iii) 将模型低延迟同步回 Actor。重要的是，SOP 与算法无关：它定义系统级的数据流和同步，而具体的参数更新方法可以被任何后训练算法所替代。
本文用两种现有的后训练方法——HG-DAgger [21] 和 RECAP [3]——实例化 SOP，并证明 SOP 通过持续传输新经验和应用频繁的异步模型更新，将它们升级为实用的在线策略在线后训练。SOP概述如图所示：SOP是一个可扩展的Actor-Learner框架，用于对通用策略进行在线、多任务的后训练。机器人集群将策略部署数据流式传输到云端Learner。在出现故障或不确定情况时，系统会触发可选的人工干预，提供修正后的轨迹或动作，并将其整合到流式经验缓冲区中。云端Learner通过混合在线缓冲区和静态离线缓冲区来构建任务平衡的更新，应用插件式后训练模块（例如HG-DAgger/RECAP），并将更新后的权重异步广播回所有Actor，从而形成一个低延迟的在线训练循环。
请添加图片描述

算法框架

算法 1 概述 SOP（系统操作流程）。从预训练策略 π_θ_0开始，并将其广播给所有 N 个机器人Actors。每个Actor i 在其本地域 Mⁱ 中持续执行最新的可用策略 π_θ，并将轨迹并行上传到共享的在线经验缓冲区。轨迹包括自主展开 τⁱ_π，以及在可用时进行的用于纠正人工干预 τⁱ_H。同时，集中式云learner持续从在线缓冲区和静态离线缓冲区的混合数据中采样训练批次，并通过后训练算法 G 更新共享参数。更新后的参数随后异步流式传输回所有Actors。
请添加图片描述

系统基础设施

开发一种分布式Actor-Learner数据基础设施，专为真实世界的机器人集群而设计，如图所示。每个机器人Actor运行一个边缘客户端，该客户端在本地缓存回合，并在回合边界处异步将其上传到对象存储。上传的episodes随后会被添加到云端托管的在线缓冲区中，Learner可以通过通知和按需检索独立地使用这些缓冲区中的episodes。
请添加图片描述

为了形成闭环，更新后的模型参数会通过轻量级的发布/订阅通道，以较短的时间间隔从云端learner同步到机器人 actor。actor获取最新的检查点，端到端延迟通常在几秒到几十秒之间（随模型规模而变化），并在安全边界（例如，episodes之间）应用更新，从而防止episode进行过程中策略的更改破坏已记录的轨迹。这种解耦机制使得Actors和Learner能够独立扩展，并且能够应对瞬态网络中断。

自适应采样策略

为了在快速适应新收集的策略内数据的同时保持多任务覆盖率，在Learner的步骤 j 中使用任务平衡的自适应采样策略 S_j。假设训练数据被划分为 M 个任务，索引为 m ∈ {1, 2, …, M}。在任务间层面，强制执行统一的任务权重 ω^m = 1/M，以确保每个任务的贡献相等。在任务内层面，对于任务 m，根据最近的训练损失调整任务的在线缓冲区 B^m_on 和离线缓冲区 B^m_off间的采样比例。

后训练学习模块

SOP 将系统（分布式数据流和同步）与算法（如何从批次中更新 θ）解耦。这由算法 1 中的后训练模块 G 实现。任何现有的、利用已记录经验并返回更新参数的训练后方法都可以集成到 SOP 中。下面总结 HG-DAgger 和 RECAP 的原始特性，并描述 SOP 如何通过连续数据流和异步更新，将它们分别转换为在线策略、在线后训练流程。

a) HG-DAgger：HG-DAgger [21] 是一种交互式模仿学习方法，其中人类监督员在机器人即将发生故障时提供实时干预，从而在策略内困难状态下提供纠正性监督，与完全远程操作相比，可以减少人类的工作量。在 SOP 中，这些干预片段（连同自主部署和离线演示）被持续地流式传输到共享缓冲区，并由云端Learner用于频繁的异步更新。通过减少故障、纠正和模型更新之间的延迟，HG-DAgger 成为一种实用的、大规模的在线策略、在线后训练流程。

b) RECAP：RECAP [3] 是一种用于大型 VLA 策略后训练处理的离线强化学习方法，旨在通过经验（包括自主部署和可选的人工纠正）改进策略。在标准用法中，RECAP 应用于迭代的离线循环（收集经验、离线训练、重新部署）。SOP 通过将最新部署策略中新收集的轨迹持续添加到缓冲区，并在不断演变的数据集上异步运行 RECAP 式更新，使此工作流程在线化。这减少策略数据的陈旧性，并实现持续的在线策略改进，同时保持 RECAP 本身不变。

实验设置

用一组 Agibot G1 双臂机械臂在三个任务系列（超市补货、衣物折叠和纸箱组装）中评估 SOP 算法。在主要的多任务设置中，训练一个共享Learner，并将 10 个机器人分配到不同的任务中：4 个机器人收集超市补货任务的策略内经验，3 个机器人收集衣物折叠任务的策略内经验，3 个机器人收集纸箱组装任务的策略内经验；所有机器人的经验被聚合起来用于联合 SOP 训练。所有后训练实验均从预训练的基础策略 π_θ_0 开始，其初始值为 π0.5 [17]。SOP 通过持续的在线策略交互来改进基础策略。除非另有说明，为每个实验分配 3 小时（180 分钟）的运行时间，并选择 SOP+HG-DAgger 作为后训练算法。在实验中，使用 NVIDIA H100 GPU 训练Learner。在包含 10 个机器人的实验设置中，提供 8 个 GPU 以适应更高的数据吞吐量，而在其他实验中，用了 4 个 GPU。这反映了实验分配，而非 SOP 的固定要求。在额外的消融实验中，仅关注杂货店补货任务，并使用较小的机器人集群（4 个机器人），同时改变活跃机器人的数量（N ∈ {1, 2, 4}）。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。