原文:Pure Vision Language Action (VLA) Models: A Comprehensive Survey

导语:当我们谈论具身智能(Embodied AI)时,底层的技术逻辑正在发生剧变。选择什么样的底层架构,不再仅仅是一个局部的代码实现问题,而是决定了机器人的物理安全性、交互质量以及在“开放世界(Open World)”中生存能力的战略级任务。今天,我们将深度拆解 VLA(Vision-Language-Action)框架的演进路线与架构选型。

在这里插入图片描述

1. 范式转换:从特定任务控制走向通用 VLA 智能体

我们的研发战略必须从传统的、手工设计的控制策略(Hand-engineered Control Policies)全面转向 “视觉-语言-动作”(VLA) 范式。

早期的机器人系统常常受限于孤立的感知管道(Perception Pipelines)和死板的任务分解脚本,一旦面对非结构化环境就会立刻“宕机”。通过向 VLA 智能体(Generalist VLA Agents)转型,我们将硬件从被动的序列生成器,转化为主动的决策实体。这种转变将 意图、感知和物理执行 统一到了一个端到端的对齐框架中,使得机器人既能继承大语言模型(LLMs)的语义推理能力,又能保持复杂交互所必须的物理接地(Grounding)

回顾整个领域的发展,我们的架构必须顺应以下三个关键阶段:

  • 单模态阶段(Unimodal Stage):计算机视觉(如 ViT)和自然语言处理(如 GPT)取得孤立突破,奠定了表征基础。
  • 多模态阶段(VLM Stage):视觉与语言的桥接(如 CLIP, LLaVA),实现了无需物理执行的语义理解。
  • 可执行控制阶段(VLA Stage):当前的绝对前沿(如 RT-2, π 0 \pi_0 π0, π 0 .5 \pi_0.5 π0.5),视觉、语言和机器人状态被统一到一个单一的序列建模框架中,用于生成实时的物理指令。

2. 核心 VLA 架构范式的深度对比

在面向实际部署时,我们必须在“延迟(Latency)”与“物理一致性(Physical Consistency)”之间做出权衡。以下是三大核心架构的选型矩阵:

架构特性 基于自回归(Autoregression-Based) 基于扩散模型(Diffusion-Based) 基于强化学习(Reinforcement-Based)
核心策略 逐步的 Token 生成 物理轨迹的条件去噪(Conditional denoising) 通过奖励代理进行策略优化
认知对齐 系统 2(慢速/深度推理) 系统 1(快速/直觉反应) 混合适应
核心优势 极具扩展性;擅长长视野的思维链(CoT)推理 出色地建模非确定性动作分布,物理一致性高 支持在线/离线自适应及基于人类反馈的强化学习(RLHF)
关键风险 误差累积(Error Propagation);推理延迟高 实时采样带来的高昂算力成本 奖励工程(Reward Engineering)容易引入噪声;训练不稳定
代表模型 RT-2, OpenVLA, PaLM-E Diffusion Policy, RDT-1B, π 0 \pi_0 π0 VIP, NaVILA, LeVERB

📌 核心洞察:推理(Reasoning)与生成(Generation)的博弈
我们必须区分“系统 1(反应式、高频)”和“系统 2(深思熟虑、语义级)”的认知模式。
虽然自回归模型(Autoregression)在长视野规划和任务分解(系统 2)上表现优异,但正如 WorldVLA 所揭示的,它极易陷入“误差累积”的陷阱——Token 生成中的哪怕一个微小失误,都可能导致灾难性的物理失败。因此,对于高风险、高精度的物理操作,**扩散模型(Diffusion)**是更好的选择。它们将控制转化为概率问题,能自然生成平滑且物理一致的轨迹(系统 1),在处理真实世界接触产生的噪声和不确定性时,远胜于离散的 Token 序列。

3. 面向硬件的定制:让架构与机器人形态相匹配

“架构异构性(Architectural Heterogeneity)”是当下的主要瓶颈。企图用一个 VLA 模型吃透所有硬件是不现实的。选型逻辑必须与硬件的物理约束相匹配:

  • 机械臂(操作/Manipulation):必须优先考虑具备 3D 空间感知能力的架构。我们倾向于部署 SE(3)-DiffusionFields(如 RDT-1B 模型所采用的技术),学习平滑的成本函数来优化 3D 抓取。这能确保双臂任务不仅在语义上正确,在物理运动上也丝滑流畅。
  • 四足机器人(运动/Locomotion):核心约束是能耗比(Compute-per-watt)。建议采用 RoboMamba 等在资源受限环境下极其高效的架构,并结合 NaVILA 进行强化学习微调,以应对动态地形和高频的指令跟随。
  • 人形机器人(全身控制/WBC):为了弥合“高层语义意图”与“底层动力学”之间的鸿沟,我们需要分层框架(Hierarchical frameworks,如 LeVERB)。这允许我们将 VLA 的推理层与高频的全身控制(WBC)层解耦,确保双足行走与执行的稳定性。
  • 自动驾驶与无人机(AVs & UAVs):为了摆脱对昂贵高精地图(HD Maps)的依赖,必须利用基于 VLM 的任务规划。OrionUAV-VLA 等模型至关重要,它们能直接从卫星图像和实时视觉反馈中生成关键任务轨迹。

4. 高阶多模态融合与物理接地策略

为了避免“伪交互(Pseudo-Interaction)”陷阱——即机器人似乎听懂了文本提示,却忽略了动态变化的环境——我们必须超越简单的“图像+文本”拼接。

  • 3D/4D 表征与关系约束:引入关系关键点图(ReKep - Relational Keypoint Graphs)。不要让机器人只停留在“看”图像,研发应聚焦于关系约束的时空推理(例如:保持两个移动物体之间的特定距离),以确保物理一致性。
  • 超越视觉的感知:对于富接触的插入(Contact-rich insertion)任务,集成**六轴力感知的混合专家模型(6-axis force-aware MoE)**不可妥协。像 ForceVLA 或 Tactile-VLA 这样的模型,能让机器人通过“触摸”环境,有效缓解双臂操作中常见的视觉遮挡(Visual Occlusion)问题。
  • 基于视频的世界模型(World Modeling via Video):利用生成式视频预训练(如 GR-1/2)构建世界模型。通过将预测未来状态作为**“视频即接口(Video-as-Interface)”**,智能体可以在执行前先在脑海中“预演”动作结果,大幅提升长周期任务的稳定性。

5. 边缘侧部署的“优化菜单”

“实时推理约束(Real-Time Inference Constraint)” 是我们跨越实验室走向商业化的最大技术跨栏。直接把 7B(70亿参数)以上的模型塞进机器人的大脑是不现实的,我们需要一套严格的优化菜单:

  • 结构优化:实施 DeeR-VLA 的提前退出(Early-exit)机制,以及基于混合专家机制的 MoLe-VLA。通过动态跳过不必要的网络层,目标是将计算成本降低 40%。
  • Token化与缓存:利用 FAST 实现高效的动作 Token 化,配合 VLA-Cache 复用 Transformer 的 KV 缓存,将冗余计算降至最低。
  • 并行化与延迟隐藏RTC(实时分块/Real-Time Chunking) 是必选项。它允许我们在机器人执行当前动作片段时,提前预测下一个动作片段,完美“隐藏”推理延迟。
  • 压缩与加速:采用 BitVLA(1-bit 量化) 将内存占用压缩至原来的 30%。更关键的是,利用 PD-VLA(并行定点解码) 在不重新训练昂贵模型的前提下,实现推理加速。

6. 部署风险防范与战略路线图

在技术落地中,我们要极力防范“语义推理与物理执行之间的断层”。以下是关键挑战与应对预案:

  1. 数据稀缺(Data Scarcity):真实世界的数据采集太慢。
    • 应对方案:采用“虚实融合(Sim-to-Real Integration)”策略,利用 Open X-Embodiment 数据集,并在 Isaac Gym 等高保真仿真器中生成数十亿级的预训练轨迹。
  2. 因果推理缺陷(Causal Reasoning Deficits):模型往往只依赖统计学上的共现概率,而非真正的物理因果。
    • 应对方案:建立强制性的物理脆弱性评估程序(PVEP),针对排版错误提示和数据分布偏移(Distributional shifts)进行对抗性测试。
  3. 推理成本过高(Inference Cost):大模型对反应式控制来说太慢了。
    • 应对方案:标准化 EdgeVLA 架构,以实现末端执行器(End-effector)预测所需的 6 倍提速。

🚀 架构选型与部署的 3 步战略路线图:

  • Step 1:对齐评估(Alignment Assessment)。首先明确任务属性——是需要系统 2 的语义推理(自回归+CoT),还是系统 1 的高频精度(扩散策略)。
  • Step 2:仿真到现实的闭环(Sim-to-Real Pipeline)。在将其部署到物理硬件之前,先在具备 2025 年基准(如 π 0 .5 \pi_0.5 π0.5 级别)的高保真虚拟环境中进行独占式训练与验证。
  • Step 3:边缘推理优化(Inference Optimization)。根据硬件平台决断:内存受限选 BitVLA,需要动态置信度决策选 DeeR-VLA。
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐