近300篇工作！伦敦国王学院x港理工全面解构VLA模型，一份清晰系统的导航图

视觉-语言-动作（VLA）模型正推动机器人技术变革，该综述系统梳理了VLA领域近300篇工作，构建了“基础模块-发展里程碑-核心挑战”的知识体系。文章首先拆解VLA模型的感知、大脑、动作三大核心模块及其技术演进趋势，然后梳理了从2017年至今的关键发展节点与代表性模型，最后聚焦五大核心挑战：多模态对齐与物理世界建模、指令遵循与实时执行、开放世界泛化、安全可解释性以及数据与评估标准。文中通过图表直观

Tom Hardy

1023人浏览 · 2025-12-17 10:41:01

Tom Hardy · 2025-12-17 10:41:01 发布

这篇综述对视觉 - 语言 - 动作（VLA）模型进行了全面剖析，是该领域极具价值的导航指南。核心结论是：VLA 模型正推动机器人技术变革，其发展遵循 “基础模块→历史里程碑→核心挑战” 的逻辑，五大核心挑战（表征、执行、泛化、安全、数据与评估）是当前研究的关键突破口，相关结构与关键信息可通过文中图表直观呈现。

论文标题：An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges
论文链接：https://arxiv.org/abs/2512.11362
项目主页：https://suyuz1.github.io/Survery/

原文链接：近300篇工作！伦敦国王学院x港理工全面解构VLA模型，一份清晰系统的导航图

核心定位与结构设计

文章以研究者的自然学习路径为框架，从基础到前沿层层递进，既适合新手入门，也为资深研究者提供方向。

核心目标：整合 VLA 领域碎片化知识，聚焦核心挑战，搭建 “模块 - 里程碑 - 挑战” 的完整知识体系。
结构逻辑：先拆解模型基础组件，再追溯发展历程，最后深入五大核心挑战，附录补充应用场景与数据集细节，整体结构如金字塔般层层深入。

基础模块：VLA 模型的核心构成

VLA 系统由感知、大脑、动作三大核心模块组成，近年呈现明显技术迭代趋势，各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。

整体架构趋势

感知模块：从传统视觉骨干网络转向语言对齐 Transformer（如 SigLIP），新增几何表征（如 DINOv2）提升操作精度。
大脑模块：向预训练 VLM 收敛，利用互联网级知识实现零样本泛化。
动作模块：从离散令牌化转向连续生成建模（如 Diffusion），追求平滑的多模态分布建模。

关键模块细节

机器人感知：视觉编码器以 CNN（高效提取局部特征）和 ViT（捕捉全局依赖）为主，衍生出语言监督、自监督、混合架构等范式；语言编码器从 Transformer 演进至 LLM、VLM；本体感受编码器常用 MLP 处理低维结构化数据。
机器人大脑：主流架构包括 Transformer、扩散 Transformer（DiT）、混合架构、VLM，其中 RT-2 等里程碑模型将 VLM 作为核心，实现多模态融合与动作生成（如表 S3）。
机器人动作：动作表征分离散、连续、混合三类；解码方式包括自回归、非自回归、混合解码，不同解码方式的性能与适用场景在相关实验图表中有所体现。

发展里程碑：从感知到 embodied 智能的演进

VLA 的发展是从被动多模态感知向主动具象化推理与控制的逐步跨越，关键节点与对应模型、数据集、评估基准已整理成时间线与表格。

2017-2019 年：奠定基础，VLN、EmbodiedQA 等 benchmarks 推动语言与视觉环境对齐。
2020-2021 年：转向长时推理，ALFRED、CLIPort 实现语言引导的机器人操作零样本泛化。
2022 年：大模型时代开启，RT-1、RT-2 构建统一 VLA 框架，实现端到端视觉 - 语言 - 动作学习。
2023 年：技术突破集中，PaLM-E 统一多模态输入空间，Diffusion Policy 革新动作建模范式，Open X-Embodiment 提供大规模跨机器人数据。
2024 年：开源与泛化推进，OpenVLA 降低研究门槛，Octo 实现跨平台多任务控制，3D-VLA 转向全 3D 世界建模。
2025 年：多元进化，Humanoid-VLA 拓展至人形机器人，Cosmos-Reason1 标准化物理推理，相关模型的核心特性与训练数据在表 S3 中详细列出。