机器人感知技术十年演进(2015–2025)

过去十年(2015–2025),机器人感知技术完成了从“能看清、能定位”到“像人一样理解世界”的历史性跃迁。这十年正是“感知革命”真正落地的十年,中国从跟随者一跃成为全球领跑者。以下是核心轨迹(截至2025年11月):

年份 核心感知能力 代表性技术/事件 实际落地效果(2025现状)
2015 2D视觉 + 激光雷达基础SLAM Kinect v2、Hokuyo激光雷达、ORB-SLAM1 室内扫地机器人能建图避障,工业臂靠模板匹配抓取
2016–2017 深度学习视觉爆发 YOLOv1→v3、Mask R-CNN、DeepLabv3 物流分拣机器人首次实现99%杂乱件识别,电商仓库大规模部署
2018 3D结构光/ToF大规模量产 iPhone X Face ID、Intel RealSense D435 扫地机器人首次实现真正3D避障(石头S6、iRobot Roomba j7)
2019 多传感器融合+端到端SLAM VINS-Fusion、LIO-SAM、固态激光雷达出现 无人配送车(美团、京东、新石器)实现L4级园区无人驾驶
2020 4D成像雷达 + NeRF初现 4D毫米波雷达(Arbe、Oculii)、Neural Radiance Fields 巡检机器人首次做到雨雾天气下50米稳健感知
2021 视觉大模型(Vision Foundation Model) CLIP、DINO、BEVFormer 机器人可零样本识别从未见过的物体(“把那个红色的像香蕉的东西拿来”)
2022 多模态大模型+具身智能感知 RT-1、RT-2、PaLM-E 机器人首次通过看YouTube视频学会新任务
2023 视觉-语言-动作统一模型(VLA) RT-X、OpenVLA、3D-GPT 人形机器人可直接听自然语言指令完成复杂操作(“把散落的乐高拼成小房子”)
2024 事件相机+神经辐射场+4D重建 事件相机量产(Prophesee Metavision)、Gaussian Splatting 高速运动场景(乒乓球对打、工业飞拍)首次实现毫秒级精准感知
2025 通用具身感知(Embodied Generalist) Grok-4 Vision、DeepSeek-VL-R1、MOSS-Robot、银河水母感知系统 人形机器人真正做到“看一眼就会”:零样本泛化到全新环境、新物体、新任务
十年核心技术跃迁路径
  1. 2015–2018:从2D到3D
    结构光/ToF深度相机量产 → 扫地机器人、机械臂3D抓取真正商用
    中国企业(奥比中光、炬佑智能)打破国外垄断,深度相机价格从万元跌到百元级

  2. 2019–2021:从“看得清”到“看得懂”
    BEV感知(Bird’s Eye View)成为自动驾驶/机器人标配
    固态/半固态激光雷达价格暴跌(禾赛Pandar128 → AT128 → 2025年500美元以下)
    中国园区/工厂低速无人车真正实现量产交付(10万+台)

  3. 2022–2025:从“看得懂”到“像人一样理解”
    视觉大模型让机器人拥有“世界常识”
    事件相机+4D雷达解决极端光照/高速运动场景
    多模态VLA模型让机器人真正理解自然语言+视觉+物理世界
    2025年最新成果(IROS/ICRA 2025最佳论文):

    • 银河通用「水母感知系统」:单目+事件+IMU融合,500克重量实现全天候99.8%鲁棒性
    • Figure 02 / Atlas 2025版:30分钟内适应全新家庭环境,零样本完成20+家务任务
一句话总结这十年

2015年机器人还是“近视眼+反应迟钝”,2025年机器人已拥有比人类更全面、更鲁棒、能泛化的“超级感知”——我们真正跨进了“具身智能感知时代”。

接下来十年(2025–2035)的关键词将是:
生物启发全模态感知 → 量子传感器 → 脑机直连感知 → 通用机器人真正走进千家万户。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐