VLM/VLA模型训练与评估指南:13大开源数据集,轻松入门,记得收藏!
本文系统梳理了自动驾驶领域视觉语言大模型(VLM)的技术框架和发展现状。典型VLM包含视觉编码器、驾驶适配器、文本编码器和LLM核心四大组件,而视觉语言驾驶模型(VLA)额外集成扩散式轨迹规划器。当前技术突破主要体现在:1)高质量数据构建,如小米通过310万驾驶数据训练Qwen2.5-VL模型;2)多阶段训练策略,包括监督微调和强化学习;3)专用评估体系发展,如DriveMLLM、AD2-Benc
典型VLM包含四个组件:视觉编码器vision encoder、驾驶视觉适配器driving adapter、文本编码器text encoder和大型语言模型(LLM),VLA与VLM相比则多了一个轨迹规划器,一般是基于扩散模式。有时adapter也称为Input Projector:将不同模态的输入数据映射到共享的语义空间。无论是VLM还是VLA,LLM都是核心。
小米汽车最新端到端模型ReCogDrive训练管线

图片来源:论文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》
小米汽车与华中科技大学首先使用310万高质量驾驶数据集来让大模型适应驾驶场景。具体而言,从12个开源驾驶数据集收集数据,进行归一化处理,统一格式,重新标注回答,打分过滤低质量数据,最终得到230万条高质量驾驶QA问答对,还构建了一个自动标注流水线,结合 80亿参数的Qwen2.5-VL 和数据集标签,生成高质量的问答数据,涵盖场景描述、关键物体描述、规划解释等任务,此外,还融合665K的 LLaVA 指令调优数据,以保持视觉语言模型的指令遵循能力。
虽然VLM视觉语言大模型能够以自回归形式生成轨迹,但由于动作空间与语言空间的巨大差异,这种方法存在根本限制。一方面,多模态大模型本身不擅长精确数值预测,另一方面,视觉语言大模型偶尔会出现幻觉现象,降低其在驾驶场景中的可靠性。受具身智能领域 π0、GR00T-N1 相关研究启发,小米汽车和华中科技大学采用基于扩散模型的轨迹规划器作为动作解码器,从高维特征空间解码出平滑轨迹,使用扩散模型做轨迹规划器已是端到端自动驾驶的最主流技术。依靠12个开源QA数据集,导出并混合了85109个轨迹用于扩散模型的训练。
AgentThink整体框架

图片来源:论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》
VLM要用到自动驾驶领域,通常要经历两个阶段,一个是监督微调即SFT,另一个是强化学习增强。LLM就好比刚升入大学的学生,SFT就是针对所选专业的学习,强化学习增强则类似所选工作任务的在岗培训。
SFT通常就是自动驾驶领域内的VQA问答集,如何设计VQA问答集是VLM的关键。也有不少免费公开的自动驾驶VQA问答集,常见的有十几个。通常这些数据集都分成两部分,一部分用于训练,另一部分用于基准测试即benchmark,还有一些数据集专注于基准测试,其数据集规模比较小,一般都提供基线模型baseline model。这些训练是弥合VLM输出的离散文本空间与自动驾驶所需的连续轨迹空间之间存在巨大鸿沟,也防止VLM的自回归解码过程可能产生不符合预定格式的轨迹或错误的轨迹。
早期的端到端自动驾驶都是使用模仿学习,导致模型往往最终学到次优的轨迹,模型只进行了记忆不会泛化,因此引入强化学习,强化学习都需要在交通仿真器中进行,目前主要有nuPlan,CARLA,还有谷歌的Waymax,苹果自己开发的Gigaflow,英伟达的NAVSIM,小米汽车和华中科技大学用了英伟达的NAVSIM,每个仿真器都有自己的评分体系,各不相同。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

常见VLM用VQA开源数据集一览

来源:佐思汽研整理
以华中科技大学和地平线的Senna为例,设计了六类QA问答,这才是VLM的核心:
-
Scene Description:提示词中指定了需要的信息,包括交通状况、环境(如城市、农村等)、道路类型(如铺设道路、高速公路)、天气条件、时间和道路条件(如道路是否光滑或是否有任何障碍物);
-
Traffic Signal Detection:识别前方红绿灯的状态;
-
Vulnerable Road User (VRUs)Identification:识别VRUs即行人或骑车人等相对汽车的弱势道路使用者的大概位置,不用太准确,主要是让VLM理解到VRUs对规划的重要性;
-
Motion Intention Prediction:预测移动目标未来的运动行为,输出也是meta-action里的那几类;
-
Meta-action Planning:输出meta-actions;
-
Planning Explanation:这里是输入给VLM自车未来的轨迹,让VLM解释这么做的原因。

"acc." refers to accelerate and "dec." refers to decelerate
表来源:论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
上表显示出6种类型齐备的QA问答,让模型性能达到最高,其中也不难看出Meta Action、交通灯信号、场景描述对模型正确率影响较大。

表来源:论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
左表显示出只输入前视图和加上环视图的性能对比,右表显示出训练数据规模对模型性能的影响。
每个训练数据集会抽出一小部分做测试评估,也有一些专门用来做基准测试的小型数据集即benchmark,常见的如下表。

来源:佐思汽研整理
对于视觉文本问答即VQA,主流的评估体系是基于机器翻译的,通常包括BLEU,ROUGE,CIDEr。BLEU (BiLingual Evaluation Understudy) 是一种评估机器翻译文本的指标,但也可用于评估生成文本的质量,通过比较机器生成的文本和人类生成的参考文本的重叠程度。BLEU 得分是一个 0 到 1 之间的数字,用于衡量机器翻译文本与一组高质量参考翻译的相似度。0 表示机器翻译的输出与参考翻译没有重叠(低质量),而 1 表示其与参考翻译完全重叠(高质量)。
BLEU评分是由Kishore Papineni等人2002年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。默认情况下,sentence_bleu()和corpus_bleu()分数计算累加的4元组BLEU分数,也称为BLEU-4分数,一般简写为B4。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation),可以看做是BLEU 的改进版,专注于召回率而非精度。换句话说,它会查看有多少个参考译句中的 n 元词组出现在了输出之中。
CIDEr (Consensus-based Image Description Evaluation)专门为图像描述任务设计,CIDEr更接近人类去判断两个句子是否相近的原理,因为它利用了TF-IDF来对不同n-gram去赋予不同的权重,直观来说,即经常出现的词组的权重具有更低的权重,而不常出现的词组则更特殊(具有更大的权重),人们会更注意这些特殊的单词。
除了VQA外,不同的benchmark会有不同的侧重点和评分体系,比如武汉大学与中科慧拓提出的DriveMLLM benchmark,侧重于VLM模型的空间理解能力。

论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》
小米汽车AgentThink使用DriveMLLM测试,L/R代表左右边界,F/B代表前后边界,Relative Horizontal Distance关联水平距离 (RHD), Relative Distance关联距离 (RD), Camera Vertical Distance摄像头垂直距离 (CVD), Camera Distance 摄像头距离(CD) Position Localization Accuracy 定位精度(Task PPos),Bounding Box Accuracy 边界框精度(Task BBox),The Aggregate Accuracy Score累积精度 (AccS)。
复旦和华为诺亚方舟实验室的Reason2Drive,侧重于VLM的推理能力测试,拥有超过60万个视频-文本对的基准数据集,旨在促进复杂驾驶环境中可解释推理的研究。将自动驾驶过程明确地描述为感知、预测和推理步骤的顺序组合,问答对是从各种开源户外驾驶数据集中自动收集的,包括nuScenes、Waymo和ONCE,标注长度达633K,在VLM Benchmark里排名第一。
2025年6月11日发布的AD2-BENCH,是中科院和腾讯CDG联合推出的侧重于多模态大模型的推理能力测试,与其他高校或企业的benchmark采用自动生成标注的方法不同,财大气粗的腾讯采用全人工专家标注,准确度是明显比自动生成要高。
AD2-BENCH搜集了10K道路实拍数据,70K的VQA问答,5406个实例包括全思维链,所有VQA和思维链都采用专家人工标注,集成了 region,文本 text,point-level(疑似是点云级) visual prompts 和可确定的转向模式explicitly steers model。
AD2-BENCH对主流多模态大模型的推理能力打分

数据来源:论文《AD2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions》
值得一提的还有理想汽车的DriveAction,2025年6月9日刚刚发布,论文为DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models,作者全部都是理想汽车的研发人员,没有高校参与。
DriveAction数据集源自量产车辆内部测试用户主动收集的真实世界数据,与以往依赖自收集或开源数据的基准不同,它覆盖了中国148个城市以及所有量产车型的记录。通过多轮人工筛选和质量控制,确保了驾驶场景和动作的全面性和代表性。
该数据集涵盖了7大关键场景类别,包括匝道/侧路合并/分离、导航/效率驱动的变道、绕行弱势道路使用者、复杂路口等。每个场景都关联了多种细粒度动作,如变道、减速、绕行等,能够详细分析不同驾驶情况下的决策过程。DriveAction的动作标签直接来源于用户的实时驾驶操作,能够准确捕捉驾驶员决策时的真实意图。为了与端到端大型模型的输出粒度匹配,这些标签被离散化为高级动作,更好地反映了人类驾驶决策的分类性质。所有标签都经过多轮人工验证,排除了错误、不合理或非法的行为,如意外的控制输入、与交通环境不符的突然停车、违反交通规则的动作等,确保了标注的可靠性和有效性。
DriveAction Benchmark示例

图片来源:论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
DriveAction引入了以动作为根的树状结构评估框架,该框架基于动作决策动态映射所需的视觉和语言任务,通过整合丰富的context场景信息,确保模型决策在完整、现实的环境中进行。
任务定义:该框架将评估逻辑设计为以动作为根的树状结构,上层是动作节点(如变道、路口转弯等),中间层是语言任务(如导航跟随、交通灯跟随等),底层是视觉任务(如车道、交通标志、障碍物检测等)。这种结构系统地将V-L-A任务整合到一个可扩展的框架中,支持针对每个动作的动态子任务组合,即使在复杂或长尾场景中也能进行全面的决策评估。
场景信息设计:为模型评估提供了三种关键场景信息,包括连续的视觉帧(支持动态上下文中的时间推理)、导航指令(提供路线指导、即将到来的转弯和目标车道信息)、车辆速度(量化当前和期望的驾驶状态)。这些信息对于可靠和上下文感知的自动驾驶评估至关重要,能够有效减少模型的幻觉决策。
灵活的评估模式:支持综合评估和特定任务评估两种模式。综合评估关注模型的最终决策输出,通过四种评估模式(全流程模式V-L-A、仅视觉模式V-A、仅语言模式L-A、无信息模式A)分析视觉和语言信息对整体动作决策的影响;特定任务评估则对层次树结构中的每个节点进行细粒度评估,帮助识别模型在感知、推理和决策技能方面的优势和劣势。
几种多模态大模型的评分

数据来源:论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
目前端到端自动驾驶的评估体系还未完全建立,高校和企业都在自建评估体系,并且这些评估体系都是仿真的,都达不到严格意义上的闭环评估,这或许是端到端自动驾驶给智能驾驶管理系统出的难题,不过这并不阻碍端到端自动驾驶的量产上车。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)