一文了解VLA演变与现状

摘要：本文系统探讨了具身智能领域Vision-Language-Action（VLA）模型的架构演进与技术挑战。通过分析三大核心范式（自回归、扩散模型、强化学习）的优劣势，指出需根据任务需求选择认知模式（系统1快速反应/系统2深度推理）。针对不同机器人形态（机械臂、四足、人形等）提出定制化架构方案，强调3D感知、力觉融合和世界模型预演的重要性。最后提出边缘部署优化策略，包括模型压缩、并行计算和虚

学诠

6人浏览 · 2026-02-26 17:08:23

学诠 · 2026-02-26 17:08:23 发布

原文：Pure Vision Language Action (VLA) Models: A Comprehensive Survey

导语：当我们谈论具身智能（Embodied AI）时，底层的技术逻辑正在发生剧变。选择什么样的底层架构，不再仅仅是一个局部的代码实现问题，而是决定了机器人的物理安全性、交互质量以及在“开放世界（Open World）”中生存能力的战略级任务。今天，我们将深度拆解 VLA（Vision-Language-Action）框架的演进路线与架构选型。

在这里插入图片描述

1. 范式转换：从特定任务控制走向通用 VLA 智能体

我们的研发战略必须从传统的、手工设计的控制策略（Hand-engineered Control Policies）全面转向 “视觉-语言-动作”（VLA） 范式。

早期的机器人系统常常受限于孤立的感知管道（Perception Pipelines）和死板的任务分解脚本，一旦面对非结构化环境就会立刻“宕机”。通过向 VLA 智能体（Generalist VLA Agents）转型，我们将硬件从被动的序列生成器，转化为主动的决策实体。这种转变将 意图、感知和物理执行 统一到了一个端到端的对齐框架中，使得机器人既能继承大语言模型（LLMs）的语义推理能力，又能保持复杂交互所必须的物理接地（Grounding）。

回顾整个领域的发展，我们的架构必须顺应以下三个关键阶段：

单模态阶段（Unimodal Stage）：计算机视觉（如 ViT）和自然语言处理（如 GPT）取得孤立突破，奠定了表征基础。
多模态阶段（VLM Stage）：视觉与语言的桥接（如 CLIP, LLaVA），实现了无需物理执行的语义理解。
可执行控制阶段（VLA Stage）：当前的绝对前沿（如 RT-2, $\pi_0$ , $\pi_0.5$ ），视觉、语言和机器人状态被统一到一个单一的序列建模框架中，用于生成实时的物理指令。

2. 核心 VLA 架构范式的深度对比

在面向实际部署时，我们必须在“延迟（Latency）”与“物理一致性（Physical Consistency）”之间做出权衡。以下是三大核心架构的选型矩阵：

架构特性	基于自回归（Autoregression-Based）	基于扩散模型（Diffusion-Based）	基于强化学习（Reinforcement-Based）
核心策略	逐步的 Token 生成	物理轨迹的条件去噪（Conditional denoising）	通过奖励代理进行策略优化
认知对齐	系统 2（慢速/深度推理）	系统 1（快速/直觉反应）	混合适应
核心优势	极具扩展性；擅长长视野的思维链（CoT）推理	出色地建模非确定性动作分布，物理一致性高	支持在线/离线自适应及基于人类反馈的强化学习（RLHF）
关键风险	误差累积（Error Propagation）；推理延迟高	实时采样带来的高昂算力成本	奖励工程（Reward Engineering）容易引入噪声；训练不稳定
代表模型	RT-2, OpenVLA, PaLM-E	Diffusion Policy, RDT-1B, $\pi_0$	VIP, NaVILA, LeVERB

📌 核心洞察：推理（Reasoning）与生成（Generation）的博弈
我们必须区分“系统 1（反应式、高频）”和“系统 2（深思熟虑、语义级）”的认知模式。
虽然自回归模型（Autoregression）在长视野规划和任务分解（系统 2）上表现优异，但正如 WorldVLA 所揭示的，它极易陷入“误差累积”的陷阱——Token 生成中的哪怕一个微小失误，都可能导致灾难性的物理失败。因此，对于高风险、高精度的物理操作，**扩散模型（Diffusion）**是更好的选择。它们将控制转化为概率问题，能自然生成平滑且物理一致的轨迹（系统 1），在处理真实世界接触产生的噪声和不确定性时，远胜于离散的 Token 序列。

3. 面向硬件的定制：让架构与机器人形态相匹配

“架构异构性（Architectural Heterogeneity）”是当下的主要瓶颈。企图用一个 VLA 模型吃透所有硬件是不现实的。选型逻辑必须与硬件的物理约束相匹配：

机械臂（操作/Manipulation）：必须优先考虑具备 3D 空间感知能力的架构。我们倾向于部署 SE(3)-DiffusionFields（如 RDT-1B 模型所采用的技术），学习平滑的成本函数来优化 3D 抓取。这能确保双臂任务不仅在语义上正确，在物理运动上也丝滑流畅。
四足机器人（运动/Locomotion）：核心约束是能耗比（Compute-per-watt）。建议采用 RoboMamba 等在资源受限环境下极其高效的架构，并结合 NaVILA 进行强化学习微调，以应对动态地形和高频的指令跟随。
人形机器人（全身控制/WBC）：为了弥合“高层语义意图”与“底层动力学”之间的鸿沟，我们需要分层框架（Hierarchical frameworks，如 LeVERB）。这允许我们将 VLA 的推理层与高频的全身控制（WBC）层解耦，确保双足行走与执行的稳定性。
自动驾驶与无人机（AVs & UAVs）：为了摆脱对昂贵高精地图（HD Maps）的依赖，必须利用基于 VLM 的任务规划。Orion 和 UAV-VLA 等模型至关重要，它们能直接从卫星图像和实时视觉反馈中生成关键任务轨迹。

4. 高阶多模态融合与物理接地策略

为了避免“伪交互（Pseudo-Interaction）”陷阱——即机器人似乎听懂了文本提示，却忽略了动态变化的环境——我们必须超越简单的“图像+文本”拼接。

3D/4D 表征与关系约束：引入关系关键点图（ReKep - Relational Keypoint Graphs）。不要让机器人只停留在“看”图像，研发应聚焦于关系约束的时空推理（例如：保持两个移动物体之间的特定距离），以确保物理一致性。
超越视觉的感知：对于富接触的插入（Contact-rich insertion）任务，集成**六轴力感知的混合专家模型（6-axis force-aware MoE）**不可妥协。像 ForceVLA 或 Tactile-VLA 这样的模型，能让机器人通过“触摸”环境，有效缓解双臂操作中常见的视觉遮挡（Visual Occlusion）问题。
基于视频的世界模型（World Modeling via Video）：利用生成式视频预训练（如 GR-1/2）构建世界模型。通过将预测未来状态作为**“视频即接口（Video-as-Interface）”**，智能体可以在执行前先在脑海中“预演”动作结果，大幅提升长周期任务的稳定性。

5. 边缘侧部署的“优化菜单”

“实时推理约束（Real-Time Inference Constraint）” 是我们跨越实验室走向商业化的最大技术跨栏。直接把 7B（70亿参数）以上的模型塞进机器人的大脑是不现实的，我们需要一套严格的优化菜单：

结构优化：实施 DeeR-VLA 的提前退出（Early-exit）机制，以及基于混合专家机制的 MoLe-VLA。通过动态跳过不必要的网络层，目标是将计算成本降低 40%。
Token化与缓存：利用 FAST 实现高效的动作 Token 化，配合 VLA-Cache 复用 Transformer 的 KV 缓存，将冗余计算降至最低。
并行化与延迟隐藏：RTC（实时分块/Real-Time Chunking） 是必选项。它允许我们在机器人执行当前动作片段时，提前预测下一个动作片段，完美“隐藏”推理延迟。
压缩与加速：采用 BitVLA（1-bit 量化） 将内存占用压缩至原来的 30%。更关键的是，利用 PD-VLA（并行定点解码） 在不重新训练昂贵模型的前提下，实现推理加速。

6. 部署风险防范与战略路线图

在技术落地中，我们要极力防范“语义推理与物理执行之间的断层”。以下是关键挑战与应对预案：

数据稀缺（Data Scarcity）：真实世界的数据采集太慢。
- 应对方案：采用“虚实融合（Sim-to-Real Integration）”策略，利用 Open X-Embodiment 数据集，并在 Isaac Gym 等高保真仿真器中生成数十亿级的预训练轨迹。
因果推理缺陷（Causal Reasoning Deficits）：模型往往只依赖统计学上的共现概率，而非真正的物理因果。
- 应对方案：建立强制性的物理脆弱性评估程序（PVEP），针对排版错误提示和数据分布偏移（Distributional shifts）进行对抗性测试。
推理成本过高（Inference Cost）：大模型对反应式控制来说太慢了。
- 应对方案：标准化 EdgeVLA 架构，以实现末端执行器（End-effector）预测所需的 6 倍提速。

🚀 架构选型与部署的 3 步战略路线图：

Step 1：对齐评估（Alignment Assessment）。首先明确任务属性——是需要系统 2 的语义推理（自回归+CoT），还是系统 1 的高频精度（扩散策略）。
Step 2：仿真到现实的闭环（Sim-to-Real Pipeline）。在将其部署到物理硬件之前，先在具备 2025 年基准（如 $\pi_0.5$ 级别）的高保真虚拟环境中进行独占式训练与验证。
Step 3：边缘推理优化（Inference Optimization）。根据硬件平台决断：内存受限选 BitVLA，需要动态置信度决策选 DeeR-VLA。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Dexmal 原力灵机：开源 Dexbotic，落下具身智能的“第三十七手”

然而，作为在企业一线构建、部署和维护复杂系统的实践者，我们深知，一个卓越的模型，本身并不能构成一个成功的企业级解决方案。AI 系统，特别是智能体 (Agent)，与数据的关系是持续的、双向的、对话式的。我们正站在一个激动人心的技术变革的门槛上。它不再是一个滞后的、审计驱动的合规流程，而必须是一个主动的、嵌入在数据流中的实时机制。它能根据模糊的目标（例如，“帮用户解决订单发货延迟的问题”）自主地规划