决策规划十年演进
摘要: 决策规划技术(2015-2025年)经历了从规则驱动到AI自主学习的跃迁。早期依赖人工规则(如有限状态机),应对复杂场景能力有限;中期转向数学优化(如模型预测控制),实现交互预测与时空联合规划;2025年进入端到端大模型时代,融合强化学习与VLA模型,具备常识推理能力。核心突破包括:数据驱动替代人工编码、连续轨迹优化、动态博弈处理,以及双系统架构(神经网络规划+规则安全监控)保障安全。未来
·
决策规划(Decision-making and Planning) 的十年(2015–2025),是从“人类逻辑的翻译者”向“具备自我意识的驾驶大脑”的终极跃迁。
如果说感知是“眼睛”,那么决策规划就是“大脑”。这十年的核心矛盾在于:如何用有限的代码去应对无限可能的复杂交通场景?
一、 演进三大阶段:从“If-Else”到“神经拟人”
1. 规则驱动与专家系统阶段 (2015–2018) —— “教机器开车”
- 核心技术: 有限状态机 (FSM)、人工势场法、Dijkstra/A* 路径搜索。
- 逻辑: 工程师预设成千上万条规则。例如:“如果左侧有车且间距小于 ,则禁止变道”。
- 特征: 极其生硬。在路口遇到稍微复杂的博弈(如加塞)时,系统往往会因为没有对应的规则而“卡死”或采取极端的急刹。
- 局限: “代码膨胀”。功能每增加一点,代码复杂等级成倍上升,人类专家已无法维护。
2. 时空联合优化与概率预测阶段 (2019–2022) —— “数学博弈”
- 核心技术: 二次规划 (QP)、模型预测控制 (MPC)、动态规划 (DP)。
- 逻辑: 将驾驶抽象为一个数学最优化问题——在满足安全约束的前提下,寻找一条舒适度最高、时间最短的曲线。
- 突破:
- 交互式预测: 开始考虑周围车辆的意图。不再假设对方是静止的,而是预测对方可能的轨迹。
- 时空联合: 不再先算路径再算速度,而是将时间和空间合并( 维度),实现了更平滑的超车变道动作。
3. 端到端与 VLA 大模型阶段 (2023–2025) —— “AI 自我领悟”
- 核心技术: 强化学习 (RL)、模仿学习 (IL)、VLA (视觉-语言-动作) 模型。
- 2025 现状:
- 端到端 One Model: 决策不再是独立的模块。2025 年的顶尖方案(如特斯拉 FSD v12、华为 ADS 3.0)通过神经网络直接将感知数据转化为驾驶动作。
- 常识决策: 引入大语言模型(LLM)的理解能力,使决策层具备了“常识”。它理解“救护车在后面要避让”、“水坑要减速慢行”这些无法用简单几何公式定义的逻辑。
二、 核心维度十年对比表 (2015 vs 2025)
| 维度 | 2015 (规则时代) | 2025 (大模型时代) | 核心跨越点 |
|---|---|---|---|
| 逻辑来源 | 人工编写的代码 (Rules) | 海量人类驾驶数据 (Data) | 从“被动执行”到“主动模仿” |
| 决策粒度 | 粗糙的动作切换 | 连续、平滑的轨迹输出 | 乘坐感从“机器开”变为“老司机” |
| 处理博弈 | 简单避让 / 停止 | 主动试探、借道、防御性驾驶 | 解决了城区复杂交互的难题 |
| 可解释性 | 极高 (可查看是哪条规则触发) | 较低 (黑盒,需语义可视化辅助) | 通过“思维链”技术提升透明度 |
| 安全底座 | 逻辑检查 | eBPF 内核级物理边界监控 | 毫秒级防范 AI 产生的异常指令 |
三、 2025 年的技术巅峰:安全可解释的端到端
在 2025 年,决策规划通过“双系统”架构实现了性能与安全的平衡:
- 快思考与慢思考 (System 1 & System 2):
- 快思考(端到端神经网络): 负责 95% 的日常驾驶,追求极致的平顺和拟人。
- 慢思考(基于规则的安全盾牌): [Image showing a dual-layer planning architecture: Neural Planner for comfort and Rule-based Shield for safety]
在底层使用 eBPF 实时审计。如果神经网络给出的指令违反了最小安全距离或最大加速度,安全盾牌会毫秒级介入纠偏。
- 交互式世界模型预演:
2025 年的规控大模型在做出决策前,会在“脑中”以 30fps 的速度预演周围车辆对本车动作的反应。它能判断出:“如果我现在强行切入,后车大概率会减速还是会加速争抢?” - 群体智慧实时对齐:
通过车云协同,一旦某个路段发生了新的交通规则变更(如临时单行),云端会通过数据闭环快速更新该区域的规控权重,并在几分钟内下发给所有车辆,无需重新写代码。
总结:从“计算”到“思考”
过去十年的演进,是将决策规划从**“死板的说明书”打造成了“灵活的数字灵魂”**。
- 2015 年: 决策是“如果…那么…”。
- 2025 年: 决策是“我知道在此时、此地,一位经验丰富的司机应该如何优雅地通过”。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)