一个务实的VLA基础模型
26年1月来自蚂蚁Robbyant 团队的论文“A Pragmatic VLA Foundation Model”。视觉-语言-动作(VLA)基础模型在机器人操作领域具有巨大潜力,期望其能够忠实地泛化到不同的任务和平台,同时确保成本效益(例如,适应所需的数据和GPU运行时间)。为此,本文开发LingBot-VLA模型,该模型基于来自9种常用双臂机器人配置的约20,000小时真实世界数据。通过在3个
26年1月来自蚂蚁Robbyant 团队的论文“A Pragmatic VLA Foundation Model”。
视觉-语言-动作(VLA)基础模型在机器人操作领域具有巨大潜力,期望其能够忠实地泛化到不同的任务和平台,同时确保成本效益(例如,适应所需的数据和GPU运行时间)。为此,本文开发LingBot-VLA模型,该模型基于来自9种常用双臂机器人配置的约20,000小时真实世界数据。通过在3个机器人平台上进行系统评估(每个平台完成100个任务,每个任务包含130个训练后迭代),模型明显优于竞争对手,展现其强大的性能和广泛的泛化能力。还构建一个高效的代码库,在8GPU训练配置下,每个GPU的吞吐量达到每秒261个样本,相比现有的VLA相关代码库,速度提升1.5到2.8倍(取决于所依赖的VLM基础模型)。上述特性确保模型非常适合实际应用。
目前机器人策略的评估方法主要分为两类:基于仿真的方法[8, 15, 17, 19, 20]和基于真实世界情境的方法[1, 31]。基于仿真的基准测试提供一种快速便捷的策略性能评估手段,能够以极低的成本在广泛多样的交互场景中进行大规模并行测试。尽管仿真环境通常采用理想化的物理模型,但其结果往往无法完全反映真实物理世界的复杂性。另一种基于真实世界的评估方法的效率通常受限于对大量硬件并行性的需求。因此,以往的大多数VLA研究仅限于比较少数几种方法在少数几个任务上的性能。为了更全面地评估策略在真实世界中的性能,VLA 模型的快速迭代促进专用训练基础设施的发展。近年来,社区涌现出多个设计精良的开源代码库,每个代码库都针对不同的研究重点。例如,OpenPI [6] 代码库提供一个通用框架,支持使用JAX和PyTorch训练π系列模型。StarVLA [22] 引入一个模块化且用户友好的代码库,专门针对VLA和VLM的协同训练进行优化,从而促进语义知识向机器人控制的迁移。此外,Dexbotic [30] 被设计为一个统一高效的解决方案,旨在简化VLA的开发生命周期,专注于从数据摄取到模型部署的标准化流程。尽管取得这些进展,但由于数据I/O瓶颈和通信开销,在多节点集群上训练大规模VLA模型仍然是一个巨大的挑战。
为了弥合这一差距,本文提出LingBot-VLA,一个专为大规模VLA训练而设计的高性能开源代码库。与现有框架不同,该代码库在数据加载、分布式训练策略和算子级加速方面实现系统性优化。
数据收集
预训练数据集基于从9种常用双臂机器人(如图所示)收集的大规模远程操作数据构建而成,采用以下这些机器人:
• AgiBot G1。该机器人配备两个7自由度机械臂和三个RGB-D摄像头。机器人数据通过基于VR的远程操作进行采集。
• AgileX。该机器人配备三个摄像头和两个6自由度机械臂。在数据采集过程中,机器人控制采用同构机械臂。
• Galaxea R1Lite。该机器人配备两个6自由度机械臂、一个立体摄像头和两个腕部摄像头。
• Galaxea R1Pro。该机器人配备两个7自由度机械臂、一个立体摄像头和两个腕部摄像头。
• Realman Rs-02。该机器人使用三个摄像头,并具有16维配置和动作空间:两个7自由度机械臂和两个平行夹爪。
• Leju KUAVO 4 Pro。该配置包含两条7自由度机械臂、两个平行夹爪、一个头部摄像头和两个腕部摄像头。
• 青龙:一款人形机器人,配备两条7自由度机械臂和三个摄像头:一个位于头部,两个分别位于两个腕部。
• ARX Lift2:该配置使用三个摄像头和两条6自由度机械臂。
• 双臂弗兰卡:该配置使用两条7自由度机械臂和两个平行夹爪,形成一个16维动作空间,并配备三个摄像头。
数据标注
为了获得精确的语言指令,执行以下标注:(1)视频片段。由机器人从多个视角拍摄的视频,由人工标注员根据预定义的原子动作进行联合分解。此外,为了减少视频中的冗余信息,在此阶段会去除视频开头和结尾的静态帧。(2)指令标注。在获得包含机器人完整运动轨迹和每个原子动作的视频片段后,用 Qwen3-VL-235B-A22B [2] 对任务和子任务指令进行精确标注。如图所示:
架构
为了充分利用训练有素的视觉语言表征,LingBot-VLA 将预训练的视觉-语言模型(VLM,例如 Qwen2.5-VL [2])与一个名为“动作专家”的初始化动作生成模块集成在一起。这些组件通过类似于 BAGEL [10] 的混合 Transformer (MoT) 架构进行组织,其中视觉语言和动作模态通过不同的 Transformer 路径进行处理,并通过共享的自注意机制耦合,以实现逐层统一的序列建模,如上图所示。该 MoT 框架确保来自 VLM 的高维语义先验在所有层级提供连续的指导,同时通过保持模态特定的处理来减轻跨模态干扰。多视图操作图像和相关的任务指令通过 VLM 进行统一编码,以建立用于后续动作生成的多模态条件。同时,机器人的本体感觉序列,特别是初始状态和动作块,被输入到动作专家中,用于预测动作生成。采用流匹配[16]进行连续动作建模,这有助于实现流畅的机器人控制,确保在复杂任务和各种机器人上实现高精度执行。
在 LingBot-VLA 中,VLM 和动作专家通过共享的自注意机制进行交互,从而促成统一的分层表示。因此,在时间戳 t 的联合建模序列被表述为观测条件 O_t 与动作片段 A_t 的拼接。
因此,训练目标是通过条件流匹配来特征化条件分布 p(A_t | O_t)。对于一个流时间步 s ∈ [0, 1],通过在高斯噪声 ε ∼ N(0, I) 和真实动作 A_t 之间进行线性插值来定义概率路径,从而得到中间动作 A_t,s = sA_t + (1 − s)ε。
参照 π0 [6],实现分块因果注意机制来建模联合序列 [O_t , A_t ]。该序列可以划分为三个不同的功能块:[I1_t , I2_t , I3_t , T_t ]、[s_t ] 和 [a_t , a_t+1 , . . . , a_t+T −1 ]。在这些块之间应用因果掩码,使得每个块中的tokens只能关注自身及其前面块中的tokens。相反,同一块内的所有tokens都采用双向注意机制,可以相互关注。这种配置确保动作专家能够利用所有可用的观察知识,同时防止未来动作tokens的信息泄露到当前的观察表示中。
为了在操作环境中显式地捕捉空间感知,并进一步增强机器人的执行鲁棒性,采用一种受近期研究[12, 28]启发的视觉蒸馏方法。具体而言,应用对应于三视图操作图像的可学习查询 [Q1_t , Q2_t , Q3_t ]。为了整合深度信息,这些查询经由VLM处理,然后与来自LingBot-Depth[24]的深度tokens [D1_t , D2_t , D3_t ]对齐。通过最小化蒸馏损失L_distill来对齐VLM可学习查询 和LingBot-Depth tokens。这种整合将几何信息注入到LingBot-VLA模型中,使其能够精确感知复杂的操作任务。
训练效率优化
鉴于动作数据本质上具有高频特性,建立一个包含分布式训练和算子优化的高效流水线至关重要。本文优化方法结构如下:
分布式策略:虽然 VLA 模型通常参数数量适中,但在 GPU 内存占用和训练吞吐量之间取得最佳平衡仍然至关重要。采用完全分片数据并行 (FSDP)——一种高效的 PyTorch 实现的零冗余优化器 (ZeRO)——对优化器状态、模型参数和梯度进行分片,从而最大限度地减少内存占用。借鉴 VeOmni [18] 中提出的混合分片数据并行 (HSDP) 方法,专门为动作专家模块构建特定的“分片组”。该策略有效地缓解过度参数分片带来的通信开销。此外,实施一种混合精度策略:在 torch.float32 中进行归约以确保数值稳定性,同时使用 torch.bfloat16 进行存储和通信。
算子级优化:架构中视觉、语言和动作的多模态融合本质上是一个稀疏注意过程。为了解决这个问题,利用 FlexAttention 来优化计算。此外,还应用算子融合(通过 torch.compile)来降低内核启动开销并最大化内存带宽利用率。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)