视觉感知十年演进
过去十年的演进,是将视觉感知从一种**“二维分类器”打造成了机器人的“生物视觉本能”**。视觉在告诉计算机“这张图里有个色块像一辆车”。视觉在告诉车辆“你面前 5 米处有一个占据空间、正以速度斜向切入的刚性障碍物”。
·
视觉感知(Visual Perception) 的十年(2015–2025),是从“识别照片里的像素”向“重建实时三维物理世界”的跨越。
视觉感知是自动驾驶的“眼睛”。这十年间,视觉算法完成了从 2D 到 3D、从局部到全局、从“特征识别”到“几何占位”的彻底重构。
一、 演进三大阶段:从“画框”到“造世界”
1. 2D 卷积与目标检测阶段 (2015–2018) —— “图像识别”
- 主流算法: CNN(卷积神经网络),如 YOLO 系列、Faster R-CNN。
- 特征: 算法在单帧 2D 图像上运行,主要任务是给车辆、行人画矩形框(Bounding Box)。
- 局限性: * 深度缺失: 2D 框很难准确判断物体的真实距离和 3D 形态。
- 后融合难题: 多个摄像头的感知结果在后处理阶段进行硬拼接,经常出现物体在画面交界处“重影”或“断开”的情况。
2. BEV 与 Transformer 时代 (2019–2022) —— “俯视图统一”
-
里程碑: 特斯拉在 2021 年 AI Day 普及了 BEV(鸟瞰图) 架构。
-
技术突破:
-
空间投影: 通过 Transformer 架构将多个摄像头的 2D 图像特征直接投影到统一的 3D 俯视图空间(BEV)。
-
时序融合: 算法开始引入“时间”维度,能够通过多帧画面计算物体的速度、加速度,并解决物体被临时遮挡后的记忆问题。
-
意义: 视觉感知从此不再是单纯的图像分类,而是在构建一张实时的、围绕车辆的动态 3D 小地图。
3. 占用网络与生成式 AI 时代 (2023–2025) —— “空间占位”
- 主流技术: Occupancy Network(占用网络 / 占据栅格)、VLM(视觉语言模型)。
- 2025 现状: * 通用障碍物识别: 2025 年的算法(如华为 ADS 3.0、小米 SU7 的感知架构)不再纠结“前方是什么”,而是判断“前方 坐标的空间是否被占用”。这解决了识别不出侧翻车辆、散落纸箱、施工围栏等异形物体的问题。
- 语义理解: 视觉系统能“读懂”路牌文字、施工牌信息,甚至识别交警的手势。
二、 核心维度十年对比表 (2015 vs 2025)
| 维度 | 2015 (感知 1.0) | 2025 (感知 3.0) | 核心演进点 |
|---|---|---|---|
| 基础模型 | 纯 CNN (ResNet 等) | Transformer / VLM | 实现了全局信息的注意力关联 |
| 感知空间 | 2D 图像平面 | 4D 时空占用空间 (Occupancy) | 实现了对物理世界的几何级重建 |
| 目标范围 | 预定义的白名单物体 | 通用障碍物 (General Obstacles) | 彻底解决了“长尾场景”识别难题 |
| 感知精度 | 像素级分类 | 体素级 (Voxel) 占据预测 | 极大地提升了异形物体的避障能力 |
| 系统延时 | 以上 | ** (硬件加速推理)** | 实时性足以支持高速场景紧急避障 |
三、 2025 年的技术巅峰:通感一体与具身视觉
在 2025 年,视觉感知已经进化为一种**“全息物理引擎”**:
- 神经场景重建 (Neural Scene Reconstruction):
2025 年的视觉系统结合了 NeRF(神经辐射场) 或 高斯泼溅 (Gaussian Splatting) 技术。车辆在行驶时不仅在看,还在实时对周围环境进行三维建模。这些回传的数据可以自动转化为数字孪生,供算法进行离线训练。 - eBPF 内核级感知监控:
由于感知模型变得极其庞大(数十亿参数),2025 年的架构引入了 eBPF 监控。它在内核层实时跟踪“摄像头曝光 神经网络推理 物体坐标输出”的全链路时延。如果检测到显存由于复杂路口计算量激增而导致丢帧,eBPF 会即刻触发降级策略,保障安全核心感知不中断。 - 弱势群体(VRU)意图感知:
视觉感知现在能识别行人的骨架姿态。通过分析路边行人的重心偏移和视线方向,2025 年的系统能提前 预判行人是否有横穿马路的冲动。
四、 总结:从“看见”到“认知”
过去十年的演进,是将视觉感知从一种**“二维分类器”打造成了机器人的“生物视觉本能”**。
- 2015 年: 视觉在告诉计算机“这张图里有个色块像一辆车”。
- 2025 年: 视觉在告诉车辆“你面前 5 米处有一个占据 空间、正以 速度斜向切入的刚性障碍物”。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)