下面我给出一份**“机器人感知技术十年演进(2015→2025)”**的系统化深度分析。重点不是列算法名称,而是解释:感知的表征范式、系统架构、数据闭环与工程落地能力如何迁移。这是移动机器人、自动驾驶、具身智能共同的技术主线。

一句话总纲:
2015:感知=检测障碍(Obstacle Detection)
2020:感知=理解环境(Scene Understanding)
2025:感知=构建可决策世界模型(Actionable World Model)

也就是说,感知从“看见物体”,演进为“构建决策所需的空间、语义与风险统一表征”。


1) 十年三段式范式迁移:Object Detection → Scene Understanding → World Model


1.1 2015–2017:障碍检测时代(Object-centric Perception)

核心目标:避免撞东西

典型输出:

Obstacle list:
  - position (x, y)
  - size

典型技术:

  • 2D LiDAR obstacle detection
  • clustering + filtering
  • occupancy grid mapping
  • 简单视觉检测(HOG/SVM 或早期CNN)

架构:

Sensors → Filter → Obstacle Detection → Planner

特点:

  • 感知目标是“障碍”
  • 不理解语义(人/车/墙区别不大)
  • 不理解动态意图

瓶颈:

  • 无法应对复杂动态环境
  • 无法预测交互
  • 无法支持复杂决策

1.2 2018–2021:场景理解时代(Scene-centric Perception)

核心目标:理解“环境结构”

感知输出升级为:

Objects:
  - class (car, pedestrian, pallet)
  - position
  - velocity

Map:
  - drivable area
  - lanes

关键技术突破:

深度学习全面主导感知

典型模型:

  • Faster R-CNN
  • YOLO系列
  • Mask R-CNN
  • semantic segmentation networks

传感器融合:

Camera + LiDAR + Radar

成为标准架构。


引入 Tracking(时序感知)

输出:

object trajectory
velocity

使机器人可以:

  • 预测碰撞风险
  • 理解动态环境

感知开始支持规划决策

planner输入:

object list
free space
drivable area

瓶颈(这一阶段天花板)

感知输出仍然是:

“物体列表”

而不是:

“完整世界状态”

问题:

  • 不完整
  • 不连续
  • 不适合复杂规划

1.3 2022–2025:世界模型时代(World Model Perception)

这是十年中最重要的范式迁移。

感知目标从:

检测物体

变为:

构建机器人可决策的世界模型


2) 表征范式革命:BEV与Occupancy成为核心


2.1 BEV(Bird’s Eye View)统一空间表征

BEV将多传感器数据转换为统一空间:

Top-down grid representation

输出:

BEV map:
  drivable
  obstacles
  lanes
  free space

优势:

  • 统一坐标系
  • 适合规划
  • 支持时序融合

成为自动驾驶和AMR感知主流架构。


2.2 Occupancy Network(占据网络)成为新标准

传统输出:

object bounding boxes

Occupancy输出:

3D voxel grid:
  occupied probability
  free probability
  unknown probability

进一步升级为:

semantic occupancy:
  object type
  motion state

优势:

  • 不依赖object detection
  • 更完整
  • 更鲁棒
  • 更适合复杂环境

Occupancy成为2025最重要感知范式。


3) 多模态融合十年演进


2015:单传感器为主

LiDAR only

Camera only

2020:多传感器融合成为主流

Camera + LiDAR + Radar

融合层级:

  • early fusion
  • late fusion

2025:统一融合(Unified fusion)

融合在:

BEV latent space

而不是传感器空间。

优势:

  • 更强鲁棒性
  • 更强泛化能力

4) 从单帧感知 → 时序感知

这是关键跃迁。


2015:frame-by-frame perception

每帧独立处理。

缺点:

  • 无时间一致性
  • 不稳定

2020:tracking-based perception

引入 tracking:

object trajectory
velocity

2025:时序感知成为默认架构

使用:

  • RNN
  • Transformer
  • temporal fusion

输出:

dynamic world model

支持:

  • 预测
  • 意图理解

5) 感知输出十年演进总结(最核心表)

年代 输出
2015 obstacle points
2018 bounding boxes
2020 tracked objects
2022 BEV representation
2025 semantic occupancy world model

6) 感知系统架构十年演进


2015架构

Sensor
  ↓
Obstacle Detection
  ↓
Planner

2020架构

Sensor
  ↓
Detection
  ↓
Tracking
  ↓
Fusion
  ↓
Planner

2025架构

Sensors
  ↓
Feature extraction
  ↓
BEV encoder
  ↓
Occupancy network
  ↓
World model
  ↓
Planner / Policy

7) 数据与平台化成为感知最大护城河

2015:

护城河:

algorithm

2020:

护城河:

model architecture

2025:

护城河:

data engine
scenario library
telemetry
replay
regression

不是模型,而是:

数据闭环能力。


8) 感知系统与Robot SRE融合

现代感知系统必须支持:

  • telemetry
  • replay
  • regression
  • incident analysis

否则无法规模化。

感知输出必须:

traceable
replayable
versioned

9) 2026–2030趋势:世界模型 + Foundation Model

明确趋势:


趋势1:Occupancy成为基础表征

object detection将成为中间层,而非最终输出。


趋势2:Foundation perception model

统一模型:

camera
lidar
radar
language

趋势3:World Model成为核心

感知与预测融合:

perception + prediction → world model

趋势4:感知成为可学习基础设施

不是:

model

而是:

perception platform

10) 十年演进本质总结

年代 本质
2015 obstacle detector
2020 scene understanding system
2025 world model generator
2030 foundation world model

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐