VLA 架构细节分析(2025 年 11 月现状)

Vision-Language-Action (VLA) 架构是机器人具身智能领域的核心创新范式,它将视觉(Vision)、语言(Language)和动作(Action)模态统一集成,实现从自然语言指令和环境观察直接生成低级机器人控制命令的端到端映射。不同于传统分层架构(感知→规划→控制),VLA 通过大模型预训练和机器人数据微调,赋予机器人“看一眼、听一句、就动手”的零样本泛化能力。2025 年,随着 Gemini Robotics 1.5、π0.6 和 Helix 等模型的发布,VLA 已从实验室原型转向工业/家庭部署,推动机器人从“工具”向“通用代理”转型。以下基于最新调研(如 IEEE VLA 综述)和会议(如 RSS 2025)进行细节剖析。

1. 核心架构组件

VLA 架构典型分为输入编码、模态融合、推理骨干和动作解码四个模块,整体参数规模从 450M(SmolVLA)到 7B(OpenVLA)不等,支持 10–50 Hz 高频控制。

  • 输入处理(Input Processing)

    • 视觉(Vision):多相机 RGB/深度图像(或视频帧)通过 Vision Transformer (ViT) 或 CNN(如 DINOv2/CLIP)编码为 token 序列。2025 年创新:Ego3D 位置编码(SpatialVLA)注入 3D 空间信息,支持动态环境;Uni-NaVid 将长/短时视频帧压缩为分层观察,避免 token 爆炸。
    • 语言(Language):自然语言指令(如“把红苹果递给我”)经 LLaMA/PaLM 等 LLM 编码为嵌入向量,支持异构提示(文本 + 条件如执行质量标注)。
    • 动作历史(Action History):可选输入过去轨迹 token,提升时序一致性(如 FAST 的 DCT 压缩)。
  • 模型结构(Model Structure)

    • 模态融合(Fusion):视觉/语言 token 在共享潜在空间(Latent Space)中交叉注意力融合。单模型设计(如 RT-2)端到端一体;双系统设计(如 Helix/GR00T N1)分 System 1(快速动作生成)和 System 2(慢速 VLM 推理),通过潜在表示通信,降低延迟(<20ms)。
    • 推理骨干(Backbone):预训练 VLM(如 PaliGemma/Gemini 2.0)提供世界知识和链式推理(Chain-of-Thought)。2025 年趋势:动作专家(Action Expert)模块(如 π0.6 的 5B 参数 VLM + 专家头),处理高 DoF(自由度)输出。
    • 输出头(Output Heads):直接生成动作序列。离散输出(RT-2):量化为 token(如 256 bin 的 6-DoF 位姿 + 终止旗标);连续输出(Octo/π0):扩散模型或流匹配(Flow-Matching)生成关节轨迹,支持 50 Hz 精细控制。
  • 整体流程:输入 → VLM 编码 → 融合 → 解码 → 机器人执行(e.g., 末端执行器位姿/夹爪状态)。架构示意图(简化):

    [RGB/视频] → ViT/DINOv2 → Token
           ↓
    [文本指令] → LLM (LLaMA) → Token
           ↓
    [融合注意力] → VLM Backbone (e.g., PaliGemma)
           ↓
    [动作解码器] → Flow-Matching/Diffusion → 连续动作 (DoF 轨迹)
    
2. 关键模型对比(2023–2025)

以下表格对比代表性 VLA 模型,聚焦架构差异和性能(基于 Open X-Embodiment 数据集,任务如抓取/组装)。

模型名称 发布年份/开发者 参数规模 架构类型 输入/输出特征 性能亮点(2025 基准) 局限性
RT-2 2023/Google DeepMind 55B 单模型 RGB + 文本 → 离散 token (256 bin) 零样本泛化 62%;链式推理支持 量化误差大;低频 (10 Hz)
OpenVLA 2024/Stanford 7B 单模型 多图像 + 指令 → 离散动作 token 操纵任务胜 RT-2 15%;开源易微调 硬件耦合强;长时序弱
Octo 2024/UC Berkeley 93M 单模型 CNN 图像 + 文本 → 连续扩散轨迹 轻量快速 (27M 变体);跨体型 70% 精细动作精度 <90%
π0/π0.6 2024–2025/Physical Intelligence 5B 单模型 + 动作专家 异构提示 + 视频 → 流匹配连续 (50 Hz) 组装/折衣成功率 >90%;小时级连续运行 训练数据依赖高频演示
Helix 2025/Figure AI 未公开 双系统 人形视频 + 指令 → 低延迟潜表示 人形家务 85%;大众制造优化 计算成本高;专为人形
Gemini Robotics 1.5 2025/Google DeepMind 变体 (轻量版) 双系统 多模态 + 工具 → 速度目标 + 轨迹 空间理解 SOTA;多步规划 92% 部署需边缘优化

数据来源于 Wikipedia 和 RSS 2025 总结。

3. 训练范式

VLA 训练分预训练(VLM 阶段)和微调(机器人阶段):

  • 预训练:在海量多模态数据(如 LAION-5B 图像-文本对)上训练 VLM 骨干,注入世界知识(物体识别、空间关系)。
  • 微调:端到端在机器人数据集(如 Open X-Embodiment >100 万 episode,22 体型)上,使用 (观察 + 指令 + 轨迹) 三元组。方法:
    • 监督微调 (SFT):L1 损失 + 并行解码(OFT),优于自回归。
    • 强化学习 (RL):ConRFT 修改 actor/critic 损失,超越人类演示;R ecap(π0.6)用专家修正 + 自主经验,提升吞吐量 2x。
    • 数据来源:真实演示(~500 小时 Helix)、人类视频(GR00T N1)、模拟(LeRobot)。2025 创新:辅助数据(如 VQA)选集(NaVILA),加速收敛 5x。
  • 效率优化:量化(OpenVLA)、块状注意力(Octo),支持边缘部署(150–300 TOPS)。
4. 挑战与 2025 年创新
  • 挑战

    • 硬件耦合:低级动作绑定特定机器人,数据复用难;长时序任务 token 爆炸(FAST 用 DCT 压缩解决)。
    • 泛化与鲁棒:极端环境(黑暗/高速)精度降 20%;黑箱解释性弱。
    • 延迟与能耗:高 DoF (40+) 下 >50ms 延迟影响实时性。
  • 2025 年创新(RSS/CoRL 亮点):

    • 空间-时序增强:3DS-VLA/CoRL 论文注入 3D 网格(Adaptive Action Grid),提升操纵泛化 25%;UniVLA 在潜在空间学习动作,再解码为机器人特定命令。
    • 解码器革命:流匹配 + B-Spline(BEAST)生成平滑轨迹,推理频率降至 10 Hz 仍稳;UWM 统一视频/动作扩散,预测 FK/IK/未来帧。
    • 部署优化:CogACT 架构边缘量化 VLA,延迟 <20ms;π0.6 用 R ecap 自主学习,工厂组装 59 箱无中断。
    • 开源生态:Awesome-Embodied-VLA GitHub 汇集 50+ 模型;SmolVLA (450M) 支持异步推理。
5. 真实世界应用与未来展望
  • 应用:工业(π0.6 工厂打包/折衣 >90% 成功);家庭(Figure 03 Helix 家务/烹饪);医疗(Gemini 1.5 工具使用)。X 社区讨论显示,VLAI 双臂机器人($5500)已集成 VLA 算法,支持 VR 遥控。
  • 未来:2030 目标——量子辅助 + 人机环路,VLA 向“意识级”演进(e.g., 结合脑机接口)。RSS 建议:融合扩散解码 + L1 预训练,解决硬件解耦。

VLA 标志着机器人从“脚本执行”到“智能代理”的跃迁,2025 年中国厂商(如银河通用水母系统)已深度集成,推动全球市场 CAGR 15%。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐