快速了解部分

基础信息(英文):

  1. 题目: LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
  2. 时间: 2026.01
  3. 机构: Shanghai Innovation Institute, OpenDriveLab at The University of Hong Kong, Li Auto Inc.
  4. 3个英文关键词: Vision-Language-Action (VLA), Latent Action Prediction, Knowledge Distillation

1句话通俗总结本文干了什么事情

本文提出了一种名为LatentVLA的新框架,它通过让大模型学习“潜动作”来理解驾驶场景,并将这种理解“蒸馏”给传统的快速驾驶模型,在保持自动驾驶系统实时运行速度的同时,大幅提升了其应对复杂场景的智能水平和泛化能力。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 数值不敏感与轨迹不准:现有的视觉语言模型(VLM)使用离散的Token来预测轨迹,难以处理连续的动作空间,导致长视野轨迹规划不稳定且不精确。
  2. 语言标注负担与偏差:依赖大量人工语言标注(如VQA)不仅成本高昂,还引入了“语言偏差”,即文本描述与实际驾驶行为可能不匹配,且无法捕捉隐性的驾驶知识。
  3. 计算效率低:现有的VLA模型通常采用多步思维链推理,计算量大、耗时长,无法满足自动驾驶实时部署的需求。

核心方法:关键技术、模型或研究设计(简要)

论文提出了LatentVLA框架,包含两个核心步骤:

  1. 潜动作学习:利用自监督学习,将连续的驾驶轨迹转化为离散的“潜动作Token”,作为桥梁连接视觉和语言模型。
  2. 知识蒸馏:训练一个大型的VLM教师模型来学习这些潜动作,然后将其学到的知识迁移到轻量级的、基于视觉的传统端到端驾驶学生模型(如Transfuser或iPad)中,从而在不牺牲精度的情况下实现高效推理。

深入了解部分

相比前人创新在哪里

  1. 去语言化的动作表示:不同于前人直接用语言指令(如“直行”、“左转”)作为监督信号,本文使用基于轨迹预测的“潜动作Token”作为自监督信号,消除了语言偏差,能更精确地捕捉细微的驾驶动态。
  2. 高效的知识迁移架构:创新性地将VLM作为“教师”进行预训练,然后通过蒸馏将知识注入到高效的端到端网络中,既利用了VLM强大的泛化能力,又保留了传统视觉模型的实时性(推理速度提升约3.7倍)。
  3. 更小的代码本设计:相比于前人使用2048个离散Token,本文采用了仅含16个Token的精简代码本,更好地保留了原始VLM的架构和预训练知识,加速了模型收敛。

解决方法/算法的通俗解释

想象一下,LatentVLA的工作方式就像一位资深教练(VLM教师)在训练一名反应极快的新手司机(端到端学生模型)。

  1. 第一步(潜动作编码):系统先看大量驾驶视频,发明一套只有16个符号的“摩斯电码”(潜动作),每一个符号代表一种未来的驾驶状态变化。
  2. 第二步(教师学习):让大模型(教师)学习这套电码,看图就能说出接下来应该打什么电码。
  3. 第三步(师徒传授):让新手司机(学生模型)在看路况的同时,模仿教练(教师)的“电码思维”来规划路线。最终,新手司机不需要真的发电码,但学会了教练的高超驾驶直觉,且开车速度极快。

解决方法的具体做法

  1. 构建潜动作模型 (LAM)
    • 使用基于IDM的编码器和FDM的解码器,从视频数据中提取时空特征。
    • 利用VQ-VAE技术将连续的驾驶动作(包括自车和环境变化)离散化为Token。
    • 采用轨迹条件而非语言条件来生成这些动作Token。
  2. 训练VLM教师
    • 基于Qwen2.5-VL架构,输入图像和指令,预测上述生成的潜动作Token。
    • 通过这种方式,VLM学会了驾驶场景的语义理解和规划能力。
  3. 蒸馏到学生模型
    • 冻结VLM参数,利用多头注意力池化提取视觉和动作特征。
    • 将这些特征通过交叉注意力机制融合到传统的端到端模型(如Transfuser或iPad)的BEV特征中。
    • 训练一个轻量级的规划Transformer,使其输出分布逼近VLM教师的分布。

基于前人的哪些方法

  1. 基础模型:基于Qwen2.5-VL(视觉语言模型基础)和DINOv2(视觉特征提取基础)。
  2. 端到端架构:基于Transfuser(基于回归的融合框架)和iPad(基于打分的迭代优化框架)作为学生模型的骨干网络。
  3. 潜变量模型:借鉴了VQ-VAE(矢量量化变分自编码器)的思想来进行动作离散化。

实验设置、数据、评估方式、结论

  1. 数据集
    • 预训练:nuPlan, nuScenes(用于LAM);OpenScene(用于VLM)。
    • 主实验:NAVSIM benchmark (navtrain训练, navtest测试)。
    • 零样本测试:nuScenes(测试泛化性)。
  2. 评估方式
    • NAVSIM:PDMS(综合评分),以及无责碰撞率(NC)、可行驶区域合规性(DAC)等子指标。
    • nuScenes:Open-loop轨迹预测的L2误差(1s, 2s, 3s)。
  3. 结论
    • 在NAVSIM上,LatentVLA(iPad)取得了92.4的PDMS分数,刷新了SOTA。
    • 经过蒸馏后的模型(Distilled LatentVLA)在保持实时性的同时,性能显著优于原始基线(如Transfuser提升了2.6分)。
    • 在nuScenes上的零样本测试中,L2误差仅为0.33m,表现优异,证明了其强大的跨数据集泛化能力。

提到的同类工作

  • DriveGPT4 / DrivingGPT:利用VLM进行场景理解和轨迹规划的早期尝试。
  • DriveMoE / AutoVLA / ReCogDrive:近期的Vision-Language-Action (VLA) 模型,分别采用了混合专家架构、自回归动作Token化和扩散规划器。
  • ImpromptuVLA / EMMA:其他基于VLA的自动驾驶方法,通常依赖更大的训练数据集或不同的动作表示方法。
  • Transfuser / UniAD / iPad:传统的端到端自动驾驶感知与规划模型,作为本文方法的基线或学生模型架构。

和本文相关性最高的3个文献

  1. ImpromptuVLA:这是本文在nuScenes零样本测试中主要对比的同类VLA工作,且本文引用其评估方法,用于证明自己在数据量较少的情况下仍能达到顶尖水平。
  2. iPad:本文提出的LatentVLA框架是基于iPad架构进行改进和融合的(LatentVLA(iPad)),是本文核心验证的基线模型之一。
  3. Transfuser:同iPad一样,Transfuser是本文采用的另一种端到端骨干网络(LatentVLA(Transfuser)),用于验证方法在不同架构下的通用性。
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐