感知算法十年演进(2015–2025)

一句话总论:
2015年感知算法还是“2D摄像头+激光SLAM+手工特征”的规则时代,2025年已进化成“多模态VLA大模型+事件相机+4D重建+量子辅助鲁棒”的端到端具身感知,中国从跟随者跃升全球领跑者(华为、小鹏、比亚迪、地平线、Momenta等主导),感知精度从米级飙升至<1cm全场景,鲁棒性从晴天可用到极端天气99.99%,推动智驾/机器人从“看得清”到“像人一样理解世界”的文明跃迁。

十年演进时间线总结
年份 核心范式跃迁 代表算法/模型 精度/鲁棒性 主要传感器组合 中国贡献/里程碑
2015 2D视觉+激光SLAM规则时代 ORB-SLAM1 + Gmapping 米级 / 晴天可用 摄像头+2D激光 百度Apollo初代SLAM,中国国产激光率<20%
2017 多传感器融合+深度学习初探 VINS-Mono + YOLOv2 亚米级 / 室内外初步 摄像头+IMU+激光 小鹏/华为视觉融合,深度学习感知占比升
2019 3D视觉+固态激光爆发 Mask R-CNN + LIO-SAM 分米–厘米级 / 雨雾改善 固态激光+多摄像头 禾赛/速腾固态激光量产,Momenta纯视觉感知
2021 BEV鸟瞰+NeRF 3D重建 BEVFormer + NeRF <10cm / 动态场景 多相机+激光+雷达 小鹏NGP BEV + 华为ADS 2.0融合
2023 多模态大模型+VLA感知元年 3D-GPT + Gaussian Splatting <5cm / 极端天气 事件相机+4D雷达+多模态 小鹏XNGP + 华为ADS 3.0 VLA感知
2025 量子辅助+自进化具身感知终极形态 Grok-4 Vision + Uni-NaVid <1cm / 量子鲁棒99.99% 事件+4D+量子传感器 华为ADS 4.0 + 小鹏第二代VLA + 比亚迪天神之眼感知
1. 2015–2018:2D视觉+激光SLAM规则时代
  • 核心特征:感知以2D摄像头+激光SLAM为主,手工特征(SIFT/ORB)+规则融合,精度米级,鲁棒性依赖晴天/结构化环境。
  • 关键进展
    • 2015年:ORB-SLAM1单目视觉定位商用。
    • 2016–2017年:VINS-Mono融合视觉+IMU,YOLOv2实时检测。
    • 2018年:固态激光初步,禾赛Pandar初探。
  • 挑战与转折:雨雾/动态弱;深度学习CNN兴起。
  • 代表案例:百度Apollo初代感知,米级导航。
2. 2019–2022:3D多传感器融合+深度学习时代
  • 核心特征:固态激光+多摄像头融合,Mask R-CNN分割+LIO-SAM定位,厘米级精度,雨雾鲁棒提升50%。
  • 关键进展
    • 2019年:禾赛/速腾固态激光量产,Momenta纯视觉3D感知。
    • 2020–2021年:BEV鸟瞰算法商用,NeRF 3D重建。
    • 2022年:地平线征程系列+多模态融合,感知渗透率超50%。
  • 挑战与转折:计算重、长尾弱;Transformer+VLA大模型兴起。
  • 代表案例:小鹏NGP + 华为ADS 2.0 BEV感知。
3. 2023–2025:多模态VLA+自进化感知时代
  • 核心特征:事件相机+4D雷达+多模态VLA大模型统一,<1cm全场景,量子辅助抗干扰,自进化感知(越开越准)。
  • 关键进展
    • 2023年:Gaussian Splatting 4D重建,小鹏XNGP + 华为ADS 3.0 VLA感知。
    • 2024年:Uni-NaVid视频压缩+事件相机量产。
    • 2025年:Grok-4 Vision + 量子辅助感知,鲁棒99.99%,普惠7万级车型。
  • 挑战与转转:极端环境;量子+大模型自进化标配。
  • 代表案例:比亚迪天神之眼(7万级全天气<5cm感知),小鹏第二代VLA(零样本新场景)。
一句话总结

从2015年2D规则SLAM的“看得清结构化”到2025年VLA量子自进化的“像人一样理解全域世界”,十年间感知算法由手工特征转向多模态语义闭环,中国主导固态激光+BEV+VLA创新,推动智驾/机器人从“感知工具”到“具身智能大脑”的文明跃迁,预计2030年感知鲁棒>99.999%全场景永不失锁。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐