近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
视觉-语言-动作(VLA)模型正推动机器人技术变革,该综述系统梳理了VLA领域近300篇工作,构建了“基础模块-发展里程碑-核心挑战”的知识体系。文章首先拆解VLA模型的感知、大脑、动作三大核心模块及其技术演进趋势,然后梳理了从2017年至今的关键发展节点与代表性模型,最后聚焦五大核心挑战:多模态对齐与物理世界建模、指令遵循与实时执行、开放世界泛化、安全可解释性以及数据与评估标准。文中通过图表直观
这篇综述对视觉 - 语言 - 动作(VLA)模型进行了全面剖析,是该领域极具价值的导航指南。核心结论是:VLA 模型正推动机器人技术变革,其发展遵循 “基础模块→历史里程碑→核心挑战” 的逻辑,五大核心挑战(表征、执行、泛化、安全、数据与评估)是当前研究的关键突破口,相关结构与关键信息可通过文中图表直观呈现。
- 论文标题:An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
- 论文链接:https://arxiv.org/abs/2512.11362
- 项目主页:https://suyuz1.github.io/Survery/
核心定位与结构设计
文章以研究者的自然学习路径为框架,从基础到前沿层层递进,既适合新手入门,也为资深研究者提供方向。
- 核心目标:整合 VLA 领域碎片化知识,聚焦核心挑战,搭建 “模块 - 里程碑 - 挑战” 的完整知识体系。
- 结构逻辑:先拆解模型基础组件,再追溯发展历程,最后深入五大核心挑战,附录补充应用场景与数据集细节,整体结构如金字塔般层层深入。

基础模块:VLA 模型的核心构成
VLA 系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势,各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。

整体架构趋势
- 感知模块:从传统视觉骨干网络转向语言对齐 Transformer(如 SigLIP),新增几何表征(如 DINOv2)提升操作精度。
- 大脑模块:向预训练 VLM 收敛,利用互联网级知识实现零样本泛化。
- 动作模块:从离散令牌化转向连续生成建模(如 Diffusion),追求平滑的多模态分布建模。
关键模块细节
- 机器人感知:视觉编码器以 CNN(高效提取局部特征)和 ViT(捕捉全局依赖)为主,衍生出语言监督、自监督、混合架构等范式;语言编码器从 Transformer 演进至 LLM、VLM;本体感受编码器常用 MLP 处理低维结构化数据。
- 机器人大脑:主流架构包括 Transformer、扩散 Transformer(DiT)、混合架构、VLM,其中 RT-2 等里程碑模型将 VLM 作为核心,实现多模态融合与动作生成(如表 S3)。
- 机器人动作:动作表征分离散、连续、混合三类;解码方式包括自回归、非自回归、混合解码,不同解码方式的性能与适用场景在相关实验图表中有所体现。
发展里程碑:从感知到 embodied 智能的演进
VLA 的发展是从被动多模态感知向主动具象化推理与控制的逐步跨越,关键节点与对应模型、数据集、评估基准已整理成时间线与表格。

- 2017-2019 年:奠定基础,VLN、EmbodiedQA 等 benchmarks 推动语言与视觉环境对齐。
- 2020-2021 年:转向长时推理,ALFRED、CLIPort 实现语言引导的机器人操作零样本泛化。
- 2022 年:大模型时代开启,RT-1、RT-2 构建统一 VLA 框架,实现端到端视觉 - 语言 - 动作学习。
- 2023 年:技术突破集中,PaLM-E 统一多模态输入空间,Diffusion Policy 革新动作建模范式,Open X-Embodiment 提供大规模跨机器人数据。
- 2024 年:开源与泛化推进,OpenVLA 降低研究门槛,Octo 实现跨平台多任务控制,3D-VLA 转向全 3D 世界建模。
- 2025 年:多元进化,Humanoid-VLA 拓展至人形机器人,Cosmos-Reason1 标准化物理推理,相关模型的核心特性与训练数据在表 S3 中详细列出。

核心挑战与解决方案
五大挑战贯穿 VLA 模型发展全流程,对应从基础能力到实际部署的关键需求,各挑战的层级关系与子问题已通过图表可视化。

多模态对齐与物理世界建模
-
核心问题:弥合语义、感知与物理交互的鸿沟,实现从 2D 图像到时空表征的升级,构建动态预测世界模型(如图 4)。
-
解决方案:通过对比学习实现模态对齐,引入点云、体素等提升空间推理能力,利用扩散模型、潜空间建模预测未来状态。

指令遵循、规划与鲁棒实时执行
-
核心问题:解析复杂 / 模糊指令,分解长时任务,实现错误自修复与低延迟执行(如图 5)。
-
解决方案:采用多模态序列建模处理混合指令,通过分层规划拆解任务,设计自校正机制与轻量化架构优化实时性。

从泛化到持续适应
-
核心问题:实现开放世界泛化,避免持续学习中的遗忘,缩小仿真到现实的差距(如图 6)。
-
解决方案:利用多任务预训练、互联网视频迁移知识,通过参数隔离、经验回放缓解遗忘,提升仿真保真度与数据多样性。

安全、可解释性与可靠交互
-
核心问题:保障物理安全,提升决策透明度,建立人机信任(如图 7)。
-
解决方案:注入安全约束、通过 Constitutional AI 对齐人类价值观,输出中间推理过程(语言 / 视觉形式)增强可解释性。

数据构建与基准测试标准
-
核心问题:获取大规模异质数据,建立统一的评估体系(如图8)。
-
解决方案:通过表征统一、数据增强整合多源数据,开发覆盖复杂任务与泛化能力的基准测试(如 CALVIN、LIBERO),各类数据集的特性与适用场景。

应用场景与未来方向
- 主要应用:家庭机器人(处理非结构化环境、长时任务)、工业与野外机器人(高精度操作、安全合规),相关应用案例的性能评估可参考文中数据集与基准测试表格。

- 未来趋势:发展原生多模态架构、形态无关表征,构建自监督探索与在线强化学习的闭环进化体系,推动评估从二元成功率转向综合诊断测试。
具身求职内推来啦
国内最大的具身智能全栈学习社区来啦!
推荐阅读
从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂
工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)
具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂
VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?
1v1 科研论文辅导来啦!
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)