一文了解VLA演变与现状
摘要: 本文系统探讨了具身智能领域Vision-Language-Action(VLA)模型的架构演进与技术挑战。通过分析三大核心范式(自回归、扩散模型、强化学习)的优劣势,指出需根据任务需求选择认知模式(系统1快速反应/系统2深度推理)。针对不同机器人形态(机械臂、四足、人形等)提出定制化架构方案,强调3D感知、力觉融合和世界模型预演的重要性。最后提出边缘部署优化策略,包括模型压缩、并行计算和虚
原文:Pure Vision Language Action (VLA) Models: A Comprehensive Survey
导语:当我们谈论具身智能(Embodied AI)时,底层的技术逻辑正在发生剧变。选择什么样的底层架构,不再仅仅是一个局部的代码实现问题,而是决定了机器人的物理安全性、交互质量以及在“开放世界(Open World)”中生存能力的战略级任务。今天,我们将深度拆解 VLA(Vision-Language-Action)框架的演进路线与架构选型。

1. 范式转换:从特定任务控制走向通用 VLA 智能体
我们的研发战略必须从传统的、手工设计的控制策略(Hand-engineered Control Policies)全面转向 “视觉-语言-动作”(VLA) 范式。
早期的机器人系统常常受限于孤立的感知管道(Perception Pipelines)和死板的任务分解脚本,一旦面对非结构化环境就会立刻“宕机”。通过向 VLA 智能体(Generalist VLA Agents)转型,我们将硬件从被动的序列生成器,转化为主动的决策实体。这种转变将 意图、感知和物理执行 统一到了一个端到端的对齐框架中,使得机器人既能继承大语言模型(LLMs)的语义推理能力,又能保持复杂交互所必须的物理接地(Grounding)。
回顾整个领域的发展,我们的架构必须顺应以下三个关键阶段:
- 单模态阶段(Unimodal Stage):计算机视觉(如 ViT)和自然语言处理(如 GPT)取得孤立突破,奠定了表征基础。
- 多模态阶段(VLM Stage):视觉与语言的桥接(如 CLIP, LLaVA),实现了无需物理执行的语义理解。
- 可执行控制阶段(VLA Stage):当前的绝对前沿(如 RT-2, π 0 \pi_0 π0, π 0 .5 \pi_0.5 π0.5),视觉、语言和机器人状态被统一到一个单一的序列建模框架中,用于生成实时的物理指令。
2. 核心 VLA 架构范式的深度对比
在面向实际部署时,我们必须在“延迟(Latency)”与“物理一致性(Physical Consistency)”之间做出权衡。以下是三大核心架构的选型矩阵:
| 架构特性 | 基于自回归(Autoregression-Based) | 基于扩散模型(Diffusion-Based) | 基于强化学习(Reinforcement-Based) |
|---|---|---|---|
| 核心策略 | 逐步的 Token 生成 | 物理轨迹的条件去噪(Conditional denoising) | 通过奖励代理进行策略优化 |
| 认知对齐 | 系统 2(慢速/深度推理) | 系统 1(快速/直觉反应) | 混合适应 |
| 核心优势 | 极具扩展性;擅长长视野的思维链(CoT)推理 | 出色地建模非确定性动作分布,物理一致性高 | 支持在线/离线自适应及基于人类反馈的强化学习(RLHF) |
| 关键风险 | 误差累积(Error Propagation);推理延迟高 | 实时采样带来的高昂算力成本 | 奖励工程(Reward Engineering)容易引入噪声;训练不稳定 |
| 代表模型 | RT-2, OpenVLA, PaLM-E | Diffusion Policy, RDT-1B, π 0 \pi_0 π0 | VIP, NaVILA, LeVERB |
📌 核心洞察:推理(Reasoning)与生成(Generation)的博弈
我们必须区分“系统 1(反应式、高频)”和“系统 2(深思熟虑、语义级)”的认知模式。
虽然自回归模型(Autoregression)在长视野规划和任务分解(系统 2)上表现优异,但正如 WorldVLA 所揭示的,它极易陷入“误差累积”的陷阱——Token 生成中的哪怕一个微小失误,都可能导致灾难性的物理失败。因此,对于高风险、高精度的物理操作,**扩散模型(Diffusion)**是更好的选择。它们将控制转化为概率问题,能自然生成平滑且物理一致的轨迹(系统 1),在处理真实世界接触产生的噪声和不确定性时,远胜于离散的 Token 序列。
3. 面向硬件的定制:让架构与机器人形态相匹配
“架构异构性(Architectural Heterogeneity)”是当下的主要瓶颈。企图用一个 VLA 模型吃透所有硬件是不现实的。选型逻辑必须与硬件的物理约束相匹配:
- 机械臂(操作/Manipulation):必须优先考虑具备 3D 空间感知能力的架构。我们倾向于部署 SE(3)-DiffusionFields(如 RDT-1B 模型所采用的技术),学习平滑的成本函数来优化 3D 抓取。这能确保双臂任务不仅在语义上正确,在物理运动上也丝滑流畅。
- 四足机器人(运动/Locomotion):核心约束是能耗比(Compute-per-watt)。建议采用 RoboMamba 等在资源受限环境下极其高效的架构,并结合 NaVILA 进行强化学习微调,以应对动态地形和高频的指令跟随。
- 人形机器人(全身控制/WBC):为了弥合“高层语义意图”与“底层动力学”之间的鸿沟,我们需要分层框架(Hierarchical frameworks,如 LeVERB)。这允许我们将 VLA 的推理层与高频的全身控制(WBC)层解耦,确保双足行走与执行的稳定性。
- 自动驾驶与无人机(AVs & UAVs):为了摆脱对昂贵高精地图(HD Maps)的依赖,必须利用基于 VLM 的任务规划。Orion 和 UAV-VLA 等模型至关重要,它们能直接从卫星图像和实时视觉反馈中生成关键任务轨迹。
4. 高阶多模态融合与物理接地策略
为了避免“伪交互(Pseudo-Interaction)”陷阱——即机器人似乎听懂了文本提示,却忽略了动态变化的环境——我们必须超越简单的“图像+文本”拼接。
- 3D/4D 表征与关系约束:引入关系关键点图(ReKep - Relational Keypoint Graphs)。不要让机器人只停留在“看”图像,研发应聚焦于关系约束的时空推理(例如:保持两个移动物体之间的特定距离),以确保物理一致性。
- 超越视觉的感知:对于富接触的插入(Contact-rich insertion)任务,集成**六轴力感知的混合专家模型(6-axis force-aware MoE)**不可妥协。像 ForceVLA 或 Tactile-VLA 这样的模型,能让机器人通过“触摸”环境,有效缓解双臂操作中常见的视觉遮挡(Visual Occlusion)问题。
- 基于视频的世界模型(World Modeling via Video):利用生成式视频预训练(如 GR-1/2)构建世界模型。通过将预测未来状态作为**“视频即接口(Video-as-Interface)”**,智能体可以在执行前先在脑海中“预演”动作结果,大幅提升长周期任务的稳定性。
5. 边缘侧部署的“优化菜单”
“实时推理约束(Real-Time Inference Constraint)” 是我们跨越实验室走向商业化的最大技术跨栏。直接把 7B(70亿参数)以上的模型塞进机器人的大脑是不现实的,我们需要一套严格的优化菜单:
- 结构优化:实施 DeeR-VLA 的提前退出(Early-exit)机制,以及基于混合专家机制的 MoLe-VLA。通过动态跳过不必要的网络层,目标是将计算成本降低 40%。
- Token化与缓存:利用 FAST 实现高效的动作 Token 化,配合 VLA-Cache 复用 Transformer 的 KV 缓存,将冗余计算降至最低。
- 并行化与延迟隐藏:RTC(实时分块/Real-Time Chunking) 是必选项。它允许我们在机器人执行当前动作片段时,提前预测下一个动作片段,完美“隐藏”推理延迟。
- 压缩与加速:采用 BitVLA(1-bit 量化) 将内存占用压缩至原来的 30%。更关键的是,利用 PD-VLA(并行定点解码) 在不重新训练昂贵模型的前提下,实现推理加速。
6. 部署风险防范与战略路线图
在技术落地中,我们要极力防范“语义推理与物理执行之间的断层”。以下是关键挑战与应对预案:
- 数据稀缺(Data Scarcity):真实世界的数据采集太慢。
- 应对方案:采用“虚实融合(Sim-to-Real Integration)”策略,利用 Open X-Embodiment 数据集,并在 Isaac Gym 等高保真仿真器中生成数十亿级的预训练轨迹。
- 因果推理缺陷(Causal Reasoning Deficits):模型往往只依赖统计学上的共现概率,而非真正的物理因果。
- 应对方案:建立强制性的物理脆弱性评估程序(PVEP),针对排版错误提示和数据分布偏移(Distributional shifts)进行对抗性测试。
- 推理成本过高(Inference Cost):大模型对反应式控制来说太慢了。
- 应对方案:标准化 EdgeVLA 架构,以实现末端执行器(End-effector)预测所需的 6 倍提速。
🚀 架构选型与部署的 3 步战略路线图:
- Step 1:对齐评估(Alignment Assessment)。首先明确任务属性——是需要系统 2 的语义推理(自回归+CoT),还是系统 1 的高频精度(扩散策略)。
- Step 2:仿真到现实的闭环(Sim-to-Real Pipeline)。在将其部署到物理硬件之前,先在具备 2025 年基准(如 π 0 .5 \pi_0.5 π0.5 级别)的高保真虚拟环境中进行独占式训练与验证。
- Step 3:边缘推理优化(Inference Optimization)。根据硬件平台决断:内存受限选 BitVLA,需要动态置信度决策选 DeeR-VLA。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)