感知算法 的十年(2015–2025),是从“识别图片里的框”向“重建三维物理世界”的跨越。

这十年的核心演进逻辑可以概括为:从 2D 到 3D,从局部到全局,从“认出物体”到“理解空间”。


一、 核心算法架构的三代进化

1. 2D 卷积时代 (2015–2018) —— “图像层面的识别”
  • 主流技术: CNN(卷积神经网络),如 YOLO 系列、Faster R-CNN。
  • 感知范式: 算法在单帧图像上通过 2D 矩形框画出车辆、行人。
  • 痛点: * 深度缺失: 2D 框无法准确给出物体的真实 3D 位置。
  • 后融合难题: 多个摄像头的感知结果在后处理阶段进行硬拼接,经常出现“物体在画面交界处重影或消失”的现象。
2. BEV 与多模态融合时代 (2019–2022) —— “统一视角的重建”
  • 里程碑: 特斯拉在 2021 年 AI Day 普及了 BEV(鸟瞰图) 架构。

  • 技术突破:

  • 特征转换 (View Transformer): 通过 LSS 或 Transformer 将多个摄像头的 2D 图像特征直接投影到统一的 3D 俯视图空间。

  • 时序融合: 算法开始记忆“过去几帧发生了什么”,从而能计算物体的速度、加速度,并解决临时遮挡问题。

  • 意义: 感知不再是画框,而是构建了一张实时的、围绕车辆的动态小地图。

3. 占用网络与生成式时代 (2023–2025) —— “空间的几何理解”
  • 主流技术: Occupancy Network(占用网络 / 占据栅格)
  • 前沿特征:
  • 通用障碍物避障: 2025 年的算法不再纠结“前方是什么”,而是判断“前方 坐标的立方体(Voxel)是否被占用”。这解决了识别不出侧翻车辆、散落纸箱等异形物体的问题。
  • VLM(视觉语言模型)增强: 引入大模型能力,使车能“读懂”路牌上的文字提示或理解交通警察的手势意图。

二、 核心维度十年对比表 (2015 vs 2025)

维度 2015 (感知 1.0) 2025 (感知 3.0) 核心演进点
基础骨干网 纯 CNN (ResNet 等) Transformer (Global Attention) 实现了全局信息的深度关联
感知维度 2D 平面图像 4D 时空占用空间 (Occupancy) 从“认图”进化为“理解物理世界”
处理目标 预定义的白名单物体 通用障碍物 (General Objects) 彻底解决了长尾场景(Corner Cases)
时序处理 单帧识别 超长时序序列融合 赋予了系统更强的预判和记忆能力
模型规模 百万级参数 十亿级甚至百亿级参数 算力与数据的规模效应爆发

三、 2025 年的技术巅峰:通感一体与具身智能

在 2025 年,感知算法已经演进为**“全时空可信感知系统”**:

  1. 神经场景重建 (Neural Reconstruction): 2025 年的感知算法结合了 NeRF(神经辐射场)。车辆在行驶过程中不仅在“看”,还在实时“建模”。回传的视频可以自动转化为 3D 数字孪生,用于算法的离线自动化训练。
  2. eBPF 穿透式数据流监控:
    由于感知模型变得极其巨大,2025 年的架构引入了 eBPF 监控。它在内核层实时跟踪“原始视频输入 神经网络推理 物体坐标输出”的全链路延迟。如果因为显存抖动导致感知帧率下降,eBPF 会即刻触发冗余的安全策略。
  3. 弱势群体(VRU)深度保护: 感知算法现在能精细化识别行人的骨架姿态。通过分析路边行人的重心变化,2025 年的系统能提前 预判行人是否有横穿马路的冲动。

四、 总结:从“看见”到“认知”

过去十年的演进,是将感知算法从**“找不同”的视觉游戏打造成了机器人的“生物感官”**。

  • 2015 年: 算法在告诉计算机“这张图里有个像素点像车”。
  • 2025 年: 算法在告诉车辆“你面前 5 米处有一个占据 空间、正以 移动的非刚性障碍物”。
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐