VLA架构细节分析

本文详细分析了VLA（Vision-Language-Action）架构的工程实现细节。VLA通过统一视觉感知、语言理解和动作执行形成闭环决策系统，其核心在于中间层的世界模型和行为抽象。视觉模块强调行动导向的感知，世界模型负责状态表示和行为预测，语言模块作为任务规划器而非直接控制器，动作层则由可验证的技能库组成。文章对比了VLA与传统机器人架构的本质差异，指出其任务泛化优势，同时也剖析了当前工程瓶

jzwspace

1253人浏览 · 2026-01-16 09:47:09

jzwspace · 2026-01-16 09:47:09 发布

下面我给你一份工程级、可落地的 VLA（Vision–Language–Action）架构细节分析。
不是“概念介绍”，而是拆到模块职责、数据流、失败模式、以及为什么它会成为具身智能的主流范式。

一、VLA 是什么（一句话工程定义）

VLA 是一种把“看见（Vision）—理解（Language）—行动（Action）”统一到同一个决策闭环中的系统架构，而不是三个模型的简单拼接。

它解决的不是“会不会做动作”，而是：

在开放世界中，如何把高层意图稳定地转化为可执行、可回退、可解释的行为。

二、VLA 的整体系统结构（工程视角）

┌──────────────┐
│   Vision     │  感知世界状态
│ (Perception) │
└──────┬───────┘
       │ 结构化世界表示
┌──────▼───────┐
│   World      │  世界模型 / 状态抽象
│   Model      │
└──────┬───────┘
       │ 语义 + 状态
┌──────▼───────┐
│  Language    │  意图理解 / 任务分解
│  Reasoning   │
└──────┬───────┘
       │ 行为计划
┌──────▼───────┐
│   Action     │  技能选择 / 控制执行
│ (Policy)     │
└──────────────┘

关键点：
VLA 的核心不是 Vision，也不是 LLM，而是中间那层“世界模型 + 行为抽象”。

三、Vision：不是“看清楚”，而是“为行动服务”

1️⃣ Vision 在 VLA 中的角色变化

传统感知	VLA 感知
识别物体	表达可行动性
输出 bbox / mask	输出 affordance
单帧	时序一致性
精度优先	不确定性优先

2️⃣ 关键输出不是图像，而是：

可抓取区域
可通行区域
接触风险
物体状态（开/关/空/满）

📌 工程结论

VLA 中的 Vision 是“Action-aware perception”，不是 CV benchmark 模型。

四、World Model：VLA 的真正中枢（最容易被低估）

1️⃣ 世界模型负责什么

当前世界状态（objects, relations）
自身状态（pose, capability）
行为后果预测（if I do X → Y）

2️⃣ 世界模型的工程形态

不是一个“巨大模型”，而是：

结构化状态图（Scene Graph）
行为前后状态差分
不确定性标注

Cup:
  location: table
  state: empty
  graspable: true
  risk: low

📌 没有世界模型的 VLA，只是“多模态拼接”

五、Language：不是聊天，而是“任务编译器”

1️⃣ LLM 在 VLA 中的真实职责

错误理解	正确定位
LLM 直接控制机器人	LLM 生成行为计划
LLM 决定动作	LLM 决定“做什么”
LLM 是大脑	LLM 是“规划器”

2️⃣ 典型流程

User: 把桌子收拾干净
↓
LLM:
  - 找到桌子上的物体
  - 判断哪些是垃圾
  - 逐个清理

输出不是动作，而是行为序列 / 子任务 DAG。

📌 LLM 是“意图 → 行为”的编译器，不是执行器

六、Action：技能库 + 低层控制（稳定性的关键）

1️⃣ Action 层的真实结构

Action Layer =
  Skill Selector
  + Skill Library
  + Low-level Controller

2️⃣ Skill 的定义

抓取
放置
推
打开
移动

每个 Skill 都是：

可验证
可失败
可回退

📌 VLA 成败的关键在 Skill 是否工程化，而不是模型多大

七、VLA 的闭环运行机制（非常重要）

感知 → 世界模型 → 语言规划 → 行为执行
   ↑                                   ↓
   └────────── 状态更新 ───────────────┘

关键特性

每一步都可中断
每一步都可回滚
每一步都有失败语义

这使得 VLA 天然适合长期运行系统。

八、VLA vs 传统机器人架构（本质差异）

维度	传统架构	VLA
决策层	FSM / BT	语言规划
感知	几何	可行动性
行为	硬编码	技能组合
泛化	场景依赖	任务泛化
失败处理	异常	行为级

九、VLA 当前的工程瓶颈（真实问题）

❗ 世界模型不稳定
❗ Skill 覆盖率不足
❗ LLM 幻觉与现实不一致
❗ 行为执行失败的恢复策略
❗ 实时性与算力成本

VLA 不是“已经解决的问题”，而是“正确方向上的未完成系统”。

十、一句话总结

VLA 不是一个模型，而是一种“把语言变成可执行行为”的系统架构范式。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Java新手5分钟接AI：Spring AI Alibaba实战

5分钟跑通了，然后呢？第一阶段：熟练使用ChatClient掌握prompt()、call()、stream()的用法学会设置系统提示词控制AI行为尝试不同的temperature参数，观察输出差异第二阶段：接入业务场景客服机器人：结合知识库回答用户问题文档助手：总结、翻译、生成报告代码助手：代码审查、生成注释、重构建议第三阶段：进阶能力Function Calling：让AI调用你的Java方法

DAMO开发者矩阵

从 C 语言过渡到 Python：给 C 程序员的快速入门教程

创建文件tools.py创建文件main.py如果你已经会 C 语言，学习 Python 并不难。C 语言让你理解计算机底层Python 让你快速解决实际问题二者不是替代关系，而是互补关系。C 语言适合打基础、做底层、追求性能Python 适合做工具、做数据、做自动化、快速开发底层理解能力工程实现能力快速开发能力工具自动化能力数据处理能力这对于嵌入式开发、机器人开发、AI 应用、自动化测试、后端开