【论文自动阅读】LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Predict

本文提出了一种名为LatentVLA的新框架，它通过让大模型学习“潜动作”来理解驾驶场景，并将这种理解“蒸馏”给传统的快速驾驶模型，在保持自动驾驶系统实时运行速度的同时，大幅提升了其应对复杂场景的智能水平和泛化能力。

萌新一个啥都不会

354人浏览 · 2026-01-27 16:17:24

萌新一个啥都不会 · 2026-01-27 16:17:24 发布

快速了解部分

基础信息（英文）：

题目: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
时间: 2026.01
机构: Shanghai Innovation Institute, OpenDriveLab at The University of Hong Kong, Li Auto Inc.
3个英文关键词: Vision-Language-Action (VLA), Latent Action Prediction, Knowledge Distillation

1句话通俗总结本文干了什么事情

研究痛点：现有研究不足 / 要解决的具体问题

数值不敏感与轨迹不准：现有的视觉语言模型（VLM）使用离散的Token来预测轨迹，难以处理连续的动作空间，导致长视野轨迹规划不稳定且不精确。
语言标注负担与偏差：依赖大量人工语言标注（如VQA）不仅成本高昂，还引入了“语言偏差”，即文本描述与实际驾驶行为可能不匹配，且无法捕捉隐性的驾驶知识。
计算效率低：现有的VLA模型通常采用多步思维链推理，计算量大、耗时长，无法满足自动驾驶实时部署的需求。

核心方法：关键技术、模型或研究设计（简要）

论文提出了LatentVLA框架，包含两个核心步骤：

潜动作学习：利用自监督学习，将连续的驾驶轨迹转化为离散的“潜动作Token”，作为桥梁连接视觉和语言模型。
知识蒸馏：训练一个大型的VLM教师模型来学习这些潜动作，然后将其学到的知识迁移到轻量级的、基于视觉的传统端到端驾驶学生模型（如Transfuser或iPad）中，从而在不牺牲精度的情况下实现高效推理。

深入了解部分

相比前人创新在哪里

去语言化的动作表示：不同于前人直接用语言指令（如“直行”、“左转”）作为监督信号，本文使用基于轨迹预测的“潜动作Token”作为自监督信号，消除了语言偏差，能更精确地捕捉细微的驾驶动态。
高效的知识迁移架构：创新性地将VLM作为“教师”进行预训练，然后通过蒸馏将知识注入到高效的端到端网络中，既利用了VLM强大的泛化能力，又保留了传统视觉模型的实时性（推理速度提升约3.7倍）。
更小的代码本设计：相比于前人使用2048个离散Token，本文采用了仅含16个Token的精简代码本，更好地保留了原始VLM的架构和预训练知识，加速了模型收敛。

解决方法/算法的通俗解释

想象一下，LatentVLA的工作方式就像一位资深教练（VLM教师）在训练一名反应极快的新手司机（端到端学生模型）。

第一步（潜动作编码）：系统先看大量驾驶视频，发明一套只有16个符号的“摩斯电码”（潜动作），每一个符号代表一种未来的驾驶状态变化。
第二步（教师学习）：让大模型（教师）学习这套电码，看图就能说出接下来应该打什么电码。
第三步（师徒传授）：让新手司机（学生模型）在看路况的同时，模仿教练（教师）的“电码思维”来规划路线。最终，新手司机不需要真的发电码，但学会了教练的高超驾驶直觉，且开车速度极快。

解决方法的具体做法

构建潜动作模型 (LAM)：
- 使用基于IDM的编码器和FDM的解码器，从视频数据中提取时空特征。
- 利用VQ-VAE技术将连续的驾驶动作（包括自车和环境变化）离散化为Token。
- 采用轨迹条件而非语言条件来生成这些动作Token。
训练VLM教师：
- 基于Qwen2.5-VL架构，输入图像和指令，预测上述生成的潜动作Token。
- 通过这种方式，VLM学会了驾驶场景的语义理解和规划能力。
蒸馏到学生模型：
- 冻结VLM参数，利用多头注意力池化提取视觉和动作特征。
- 将这些特征通过交叉注意力机制融合到传统的端到端模型（如Transfuser或iPad）的BEV特征中。
- 训练一个轻量级的规划Transformer，使其输出分布逼近VLM教师的分布。

基于前人的哪些方法

基础模型：基于Qwen2.5-VL（视觉语言模型基础）和DINOv2（视觉特征提取基础）。
端到端架构：基于Transfuser（基于回归的融合框架）和iPad（基于打分的迭代优化框架）作为学生模型的骨干网络。
潜变量模型：借鉴了VQ-VAE（矢量量化变分自编码器）的思想来进行动作离散化。

实验设置、数据、评估方式、结论

数据集：
- 预训练：nuPlan, nuScenes（用于LAM）；OpenScene（用于VLM）。
- 主实验：NAVSIM benchmark (navtrain训练, navtest测试)。
- 零样本测试：nuScenes（测试泛化性）。
评估方式：
- NAVSIM：PDMS（综合评分），以及无责碰撞率(NC)、可行驶区域合规性(DAC)等子指标。
- nuScenes：Open-loop轨迹预测的L2误差（1s, 2s, 3s）。
结论：
- 在NAVSIM上，LatentVLA(iPad)取得了92.4的PDMS分数，刷新了SOTA。
- 经过蒸馏后的模型（Distilled LatentVLA）在保持实时性的同时，性能显著优于原始基线（如Transfuser提升了2.6分）。
- 在nuScenes上的零样本测试中，L2误差仅为0.33m，表现优异，证明了其强大的跨数据集泛化能力。

提到的同类工作

DriveGPT4 / DrivingGPT：利用VLM进行场景理解和轨迹规划的早期尝试。
DriveMoE / AutoVLA / ReCogDrive：近期的Vision-Language-Action (VLA) 模型，分别采用了混合专家架构、自回归动作Token化和扩散规划器。
ImpromptuVLA / EMMA：其他基于VLA的自动驾驶方法，通常依赖更大的训练数据集或不同的动作表示方法。
Transfuser / UniAD / iPad：传统的端到端自动驾驶感知与规划模型，作为本文方法的基线或学生模型架构。

和本文相关性最高的3个文献

ImpromptuVLA：这是本文在nuScenes零样本测试中主要对比的同类VLA工作，且本文引用其评估方法，用于证明自己在数据量较少的情况下仍能达到顶尖水平。
iPad：本文提出的LatentVLA框架是基于iPad架构进行改进和融合的（LatentVLA(iPad)），是本文核心验证的基线模型之一。
Transfuser：同iPad一样，Transfuser是本文采用的另一种端到端骨干网络（LatentVLA(Transfuser)），用于验证方法在不同架构下的通用性。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

面向内镜手术的绳驱连续体机器人的自适应滑模轨迹跟踪与抗干扰控制策略

DAMO开发者矩阵

【SLAM】扩展卡尔曼滤波同步定位与地图构建MATLAB 代码

一、引言：SLAM 的核心痛点与 EKF 的破局之道1.1 同步定位与地图构建（SLAM）的本质需求SLAM 的核心矛盾的是 “未知环境中，机器人既不知道自己在哪，也不知道环境长什么样”—— 就像人在陌生城市迷路时，既分不清方向，也不认识街道，需要同时完成 “定位（确定自身位置）” 和 “地图构建（绘制环境轮廓）”。实际场景中，机器人会面临两个关键问题：传感器噪声：激光雷达、相机等传感器的测量数据