端到端自动驾驶如何评价？快来看看这个刚开源的平台。训练大模型、评测大模型，都教会你

闭环测试（如CARLA固定路线）虽模拟真实环境，但考题单一（如Town05Long仅6种路况），导致同一算法多次考试得分差异超30%，更因各厂商自建"私人题库"而丧失公平性；：主流方法依赖开环测试（如nuScenes），像让学生对着固定题库刷答案，仅通过回放历史数据验证单帧决策，却无法检验连续驾驶中动态交互的真实能力；所以，一个更全维度的题库，一个更公平的考场，一个更有权威的评分方法，一个更有效率

智驾仿真李慢慢

195人浏览 · 2025-03-14 12:11:27

智驾仿真李慢慢 · 2025-03-14 12:11:27 发布

考试拿满分，上路就翻车。

刚从驾校拿到驾照的学员如此，刚上车的端到端大模型亦如此。

为什么不能在上车前就拦截住这些问题呢？

这正是当前端到端自动驾驶（End to End Autonomous Driving，简称E2E-AD）技术面临的困境，源自于现有自动驾驶评估体系存在的三大断层：

"应试教育"局限：主流方法依赖开环测试（如nuScenes），像让学生对着固定题库刷答案，仅通过回放历史数据验证单帧决策，却无法检验连续驾驶中动态交互的真实能力；
"考场设计"缺陷：闭环测试（如CARLA固定路线）虽模拟真实环境，但考题单一（如Town05Long仅6种路况），导致同一算法多次考试得分差异超30%，更因各厂商自建"私人题库"而丧失公平性；
"评分标准"片面：现有基准（如Waymax）仅考核基础驾驶动作，对44种复杂交互场景（如暴雨中紧急避让）的覆盖不足15%。

简而言之就是：

简单的考题，并不能让学生具备真正的实战能力。

简单的场景，也不能证明自动驾驶没有问题。

所以，一个更全维度的题库，一个更公平的考场，一个更有权威的评分方法，一个更有效率的评估平台成为刚需，为此，Bench2Drive应运而生。

原文链接：

https://mp.weixin.qq.com/s/BgM8xUC7f7lVNjHzcZluEg