【2025nuScenes新SOTA】OpenDriveVLA：采用大视觉语言动作模型实现端到端自主驾驶

何景明

348人浏览 · 2026-01-19 17:17:22

何景明 · 2026-01-19 17:17:22 发布

摘要

本文提出了OpenDriveVLA，一种为端到端自动驾驶而设计的视觉-语言动作(VLA)模型。OpenDriveVLA建立在开源的预先训练的大型视觉语言模型(VLM)的基础上，以3D环境感知、自我车辆状态和驾驶员命令为条件生成可靠的驾驶动作。为了弥合驱动视觉表征和语言嵌入之间的通道鸿沟，我们提出了一种层次化视觉语言对齐过程，将2D和3D结构化视觉标记投影到统一的语义空间中。此外，OpenDriveVLA通过自回归代理-环境-自我交互*对自我车辆、周围代理和静态道路元素之间的动态关系进行建模确保空间和行为知情的轨迹规划。在nuScenes数据集上的广泛实验表明，OpenDriveVLA在开环轨迹规划和与驾驶相关的问答任务中实现了最先进的结果。定性分析进一步展示了OpenDriveVLA在遵循高级驾驶命令并在具有挑战性的场景下稳健生成轨迹的卓越能力，突显了其在下一代端到端自动驾驶方面的潜力。我们将公布我们的代码，以促进这一领域的进一步研究。

1.引言

端到端学习框架已经成为自动驾驶的一种很有前途的范例，使人能够感知、预测和规划将在统一的神经网络内进行联合优化[5，54]。通过利用大规模驾驶数据，这些模型直接从原始传感器输入学习驾驶政策，在不同的驾驶场景中实现了令人印象深刻的性能。尽管取得了显著的进展，但现有的端到端驾驶方法仍然面临着严峻的挑战，特别是在对长尾场景的有限概括、对复杂驾驶场景中的高级语义理解不足以及对任务驱动的规划缺乏灵活的推理能力[4]。同时，大型语言模型(LLM)和视觉语言模型(VLM)表现出很强的情景学习、常识理解和零-短概括能力。这些新出现的能力突显了它们对自动驾驶的前景，特别是考虑到对各种现实世界驾驶条件的强大场景理解的迫切需要[28，53]。然而，直接利用现有的VLM进行自动驾驶带来了根本性的挑战。首先，当前的VLM主要针对静态的2D图像语言任务进行优化，导致在动态3D驾驶环境中的空间推理性能较差[34，50]。此外，这些车型经常产生幻觉输出-不正确或过于自信的描述-严重影响自动驾驶的安全性。在这些限制的激励下，我们的工作回答了一个核心问题：我们如何利用VLM的新兴能力来产生可靠的驾驶行为，同时减轻幻觉风险并平衡推理速度和规划有效性？

为此，我们提出了OpenDriveVLA，这是一种专为端到端自动驾驶设计的新型视觉语言动作模型。OpenDriveVLA利用开源的预先训练的语言基础模型来生成可解释和可靠的驾驶轨迹，这些轨迹以多模式输入为条件，包括3D环境感知、EGO车辆状态和驾驶员命令。OpenDriveVLA将视觉语言理解和轨迹生成结合在一个统一的模型中。它在开环规划和与驾驶相关的问答基准上进行了严格的评估，取得了领先的结果，并展示了卓越的轨迹生成和驾驶场景理解。具体来说，我们的贡献概括如下：

·我们提出了OpenDriveVLA，这是一个端到端的视觉语言动作模型，它在多模式输入的条件下生成可靠的驾驶轨迹。

·引入了层次化的视觉-语言特征对齐模块，将结构化的2D和3D视觉标记投影到统一的语义嵌入空间，方便了语言制导轨迹的生成。

·我们设计了一个代理-环境-自我交互过程来捕捉自我载体、动态代理和静态地图元素之间的交互，显著增强了运动在复杂交通场景中的预测准确性和轨迹可靠性。

·在nuScenes数据集上的广泛实验表明，OpenDriveVLA在开环规划和与驾驶相关的问题回答方面建立了新的最先进的结果，始终优于之前基于LLM的和端到端的自动驾驶方法。

2.相关工作

2.1端到端自动驾驶

自动驾驶的发展经历了两个截然不同的阶段。传统的方法依赖于模块化设计，将系统分解为感知[3，24，40]、预测[30，48，51]和规划[12，37]。虽然这种结构确保了可解释性并允许独立优化，但它们存在阶段之间的级联错误，并且没有针对最终规划目标进行全局优化。相比之下，端到端自动驾驶框架[5、14、17]通过在统一的神经网络中联合优化感知、预测和规划来解决这一问题。这些模型直接从原始传感器输入学习驾驶策略，从而提高了模型对各种驾驶条件的适应性。然而，现有的端到端方法仍然面临着语义推理的瓶颈-它们难以充分理解高级场景语义，推断复杂的主体交互，并适应动态的任务需求。此外，它们的决策过程仍然不透明，这使得诊断失败案例变得困难，特别是在长尾或看不见的情况下。

2.2多模态大语言模型

大型语言模型在情景学习、指令遵循和推理方面表现出强大的应急能力[33，39]。通过对大量互联网规模数据的训练，这些模型获得了广泛的世界知识，并显示出对不同任务的强大适应性。他们的成功也推动了大型VLM的兴起，通过将视觉编码器与语言模型集成在一起，将这些能力扩展到跨模式推理。最先进的VLM如GPT-4V[31]、LLaVA[26]、DeepSeekVL[41]和Qwen-VL[1]在开放领域任务中表现出强大的视觉理解和多通道推理能力。然而，这些模型主要是在静态2D图像或视频上训练的，在动态3D驾驶环境中表现出有限的空间推理。此外，VLM容易出现幻觉和通常过于自信但不正确的描述，这在安全关键的规划场景中构成了严重的风险。最近，视觉-语言动作模型已经出现，可以直接从视觉输入预测动作，在机器人操作任务中表现出强大的性能[22，52]。然而，这种受语言制约的动作生成在端到端自动驾驶中的应用还没有得到充分的探索。

2.3大语言模型在自动驾驶领域中的应用

LLMS和VLMS都已被广泛应用于自主驾驶任务，包括感知、场景描述、合成数据生成和高级决策[54]。在端到端自动驾驶的范围内，现有的工作一般遵循三种类型的设计策略。如图2所示，有一类研究将字幕或问答模块等语言头部集成到驱动模型中，以增强可解释性[8]。第二类使用语言模型来生成高级驾驶指令，例如方向命令或抽象动作，这些指令随后由单独的规划模块解释为低级控制[18，38]。这种方法允许语言模型影响决策，但保留了推理和运动规划之间的模块分离，使联合优化具有挑战性。第三类直接应用VLM来根据单目视频输入预测驾驶动作[19，44]。这些方法处理2D图像，并基于视觉观察生成速度和转向命令，而不需要对驾驶场景中的3D空间布局或多代理交互进行显式建模。这限制了他们在复杂的交通环境中对深度、遮挡和代理动态进行推理的能力。在这项工作中，我们旨在研究LLMS如何在端到端的自主驾驶框架内统一跨通道语义推理和3D实例感知轨迹规划。

3.Open Drive VLA

OpenDriveVLA的总体架构如图1所示，其多阶段训练过程在图3中进一步详细说明。OpenDriveVLA从预先训练的视觉编码器开始，它从多视图图像(SEC)提取标记化的环境表示。3.1)。然后通过跨模式学习(SEC)将这些视觉标记与文本域对齐。3.2)。在对准之后，OpenDriveVLA经历驾驶指令调整(SEC。3.3)，然后进行代理-自我-环境交互建模(SEC.3.4)。最后，OpenDriveVLA经过端到端的训练，在对齐的视觉语言令牌和驾驶指令的指导下，预测EGO车辆的未来轨迹(SEC。3.5)。

一、任务模块（Task）：DriveVLA的功能场景

任务模块展示了DriveVLA在不同自动驾驶场景下的应用，从左到右分为4个子场景：

1. 多模态标注（2D/3D Caption + 场景/地图Token）

输入：实例（Instance，如自行车、公交车）的Token（可理解为特征编码）。
处理：生成2D标注（2D Caption，平面视角描述）和3D标注（3D Caption，立体视角描述）；同时，场景（Scene）和地图（Map）的Token也会生成对应的场景标注（Scene Caption）和地图标注（Map Caption）。
作用：为模型提供多模态的环境理解能力（从2D/3D视角、场景/地图维度解析环境）。

2. 驾驶问答（Driving QA）

输入：问题（Question，如天气、交通状况等）。
处理：DriveVLA模型输出答案（Answer），并支持多种驾驶相关的问答任务：
- 感知类：天气识别（Weather Recognition）、交通状况（Traffic Condition）、运动状态（Motion Status）；
- 决策类：高层决策（High-Level Decision）、动作推理（Action Reasoning）等。
作用：让模型具备“理解问题→输出决策/信息”的能力，模拟人类驾驶时的认知推理（如“当前天气是否适合高速行驶？”“路口是否该让行？”）。

3. 智能体运动预测（Agent Motion Forecasting）

输入：智能体（Agent，如自行车、公交车）的Token，以及环境（Env）和自车（Ego）的信息。
处理：DriveVLA模型预测智能体的运动轨迹（图中箭头指向的“运动预测”模块），并反馈给模型自身（虚线箭头）优化预测。
作用：提前感知周围交通参与者（如自行车、其他车辆）的运动趋势，辅助自车决策。

4. 轨迹规划（Trajectory）

输入：DriveVLA模型感知（Perceive）环境（Environment，如行人、红绿灯、电动车）和自车状态（Ego State）。
处理：模型输出自车轨迹（Trajectory，图中右侧的彩色轨迹线），即自车（A点）的行驶路径。
作用：将“感知→决策→规划”闭环，完成从“环境感知”到“轨迹输出”的自动驾驶核心任务。

二、训练模块（Training）：模型的迭代优化阶段

训练模块展示了DriveVLA的4个训练阶段，每个阶段都包含“视觉编码器（Vision Encoder）、QFormer、投影仪（Projector）、大语言模型（LLM）”4个核心组件，通过组件的“激活状态”（蓝色雪花=冻结、红色火焰=微调）体现训练策略：

1. 阶段1：分层特征对齐（Hierarchical Feature Alignment）

组件状态：视觉编码器、QFormer、LLM冻结（雪花），投影仪微调（火焰）。
目标：让多模态特征（视觉、语言）在底层对齐，为后续任务打基础。

2. 阶段2：驾驶指令微调（Driving Instruction Tuning）

组件状态：视觉编码器、QFormer冻结，投影仪、LLM微调（火焰）。
目标：用驾驶相关的指令数据（如“雨天高速行驶策略”“路口让行规则”）微调模型，让其理解“问题→答案”的映射关系，对应“驾驶问答”任务。

3. 阶段2.5：智能体-环境-自车交互（Agent-Env-Ego Interaction）

组件状态：视觉编码器、QFormer冻结，投影仪、LLM微调（火焰）。
目标：引入“智能体（Agent）、环境（Env）、自车（Ego）”的交互数据，优化运动预测和决策能力（如“自行车突然变道，自车该加速还是减速？”），对应“运动预测”任务。

4. 阶段3：轨迹规划微调（Trajectory Planning Tuning）

组件状态：视觉编码器、QFormer、投影仪、LLM全部微调（火焰）。
目标：用真实/模拟的轨迹数据（如“城市道路轨迹库”“高速变道轨迹库”）微调模型，让其直接输出自车的行驶轨迹，对应“轨迹规划”任务。

三、核心观点与研究意义

这张图表清晰展示了**“多模态感知→认知推理→运动预测→轨迹规划”**的自动驾驶全流程，以及模型从“基础特征对齐”到“任务级微调”的训练逻辑。其核心观点是：

多模态融合：DriveVLA通过2D/3D标注、场景/地图标注，实现对环境的多维度理解；
任务分层：从简单的“问答”到复杂的“轨迹规划”，任务难度逐步提升，模型能力逐步增强；
训练策略：分阶段冻结/微调核心组件（视觉编码器、QFormer、投影仪、LLM），平衡“特征对齐”和“任务适配”，提高模型效率和泛化性。

四、结论

这张图证明了DriveVLA模型的设计逻辑：

输入：多模态环境信息（2D/3D、场景/地图、智能体/自车状态）；
输出：问答、运动预测、轨迹规划等自动驾驶核心任务的结果；
训练：分阶段优化，从基础特征对齐到复杂任务微调，让模型逐步掌握“感知→决策→行动”的驾驶能力。

这种设计让模型既具备多模态环境理解能力，又能在真实驾驶场景中输出实用的决策/轨迹，为自动驾驶大模型的研发提供了清晰的“任务-训练”框架。

4.实验

5.结论

在这项工作中，我们提出了OpenDriveVLA，这是一个为端到端自动驾驶设计的可扩展视觉语言动作模型。通过利用预先训练的大型语言模型，OpenDriveVLA可以生成可靠的驾驶动作。我们提出了一种分层的视觉-语言特征对齐过程和一种主体-环境-自我交互机制来增强空间推理和轨迹预测。通过多阶段培训模式，OpenDriveVLA在开环规划和驾驶相关问题回答方面实现了最先进的性能。在nuScenes数据集上的广泛评估表明，与现有的自回归和端到端驾驶模型相比，该模型具有优越的轨迹规划能力。我们的工作证明了一种可扩展的视觉语言驱动的自动驾驶方法的可行性，并突出了大型语言模型作为端到端驾驶动作系统的基础的潜力。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

2026值得花时间学 AI Agent 吗？一份深度评估报告

DAMO开发者矩阵

生成式AI革命下的软件测试：机遇裂变与风险防御体系构建

DAMO开发者矩阵

一分钟了解Hugging Face

Hugging Face 最初是一家专注于聊天机器人的创业公司，但在 2018 年左右，团队意识到 NLP 领域缺乏一个统一、易用的模型共享平台。于是，他们转向构建一个开源模型库和工具集，并迅速因发布Transformers 库而声名鹊起。如今，Hugging Face 被誉为 “AI 领域的 GitHub”，其使命是“让优秀的机器学习民主化”Hugging Face 不仅仅是一个工具库，它代表了