机器人系统软件十年演进

摘要：2015至2025年机器人系统软件经历了从单机应用到云端治理平台的演进。第一阶段（2015-2018）以ROS1为主，面临版本漂移、运维困难等问题；第二阶段（2019-2021）实现平台化，采用ROS2/DDS和容器化技术，但治理闭环不足；第三阶段（2022-2025）形成云化服务体系，具备SLA管理、证据链诊断和自愈能力。核心子系统如OS实时性、中间件通信、设备管理等均实现标准化和平台化升

jzwspace

707人浏览 · 2026-02-16 14:35:01

jzwspace · 2026-02-16 14:35:01 发布

下面我把“机器人系统软件十年演进（2015→2025）”当作一条从“能跑通”走向“可规模化运营”的路线来总结。这里“系统软件”覆盖你前面反复追问的那几类能力：OS/中间件、运行时、驱动与设备管理、系统服务、部署升级、可观测性与诊断、仿真与回归、车队与云端平台、质量与安全治理。
一句话概括十年主线：

机器人系统软件从“机器人上的应用程序集合”演进为“云端可治理的机器人操作平台（Robot Platform + Robot SRE）”。

我会按 三段式范式迁移 + 10 个核心子系统的演进 来讲。

1) 十年三段式范式迁移：Robot App → Robot Platform → Robot Service

第一段（2015–2018）：Robot App（单机应用式系统软件）

关键词：ROS1、Linux、脚本部署、日志靠本地、工程师救火

典型形态

OS：Ubuntu + Linux PREEMPT（少量场景 RT-PREEMPT/RTOS）
中间件：ROS1 topic/service 为主
驱动：厂商SDK+自写节点，质量参差
运行时：launch 启动、supervisor/脚本守护
运维：现场SSH、拷日志、人工复现
安全：急停+规则阈值为主

优势

生态强，开发效率高，研究成果落地快

痛点（规模化必爆）

配置/版本漂移：同一套代码在不同车/站点表现不同
可观测性弱：没有统一 task_id/trace_id/事件模型
升级困难：现场刷机、回滚难
可靠性靠人：排障经验不可复制

这一阶段系统软件更像“把算法跑起来的胶水”。

第二段（2019–2021）：Robot Platform（平台化系统软件）

关键词：ROS2/DDS、组件化、容器化、集中监控日志、车队系统成型

关键变化

ROS2/DDS 进入工程主流：QoS、生命周期、分布式更可控
组件化：导航栈/定位栈/驱动栈模块化，插件接口更清晰
容器化/镜像化：开始形成稳定发布流程（版本、依赖、环境一致）
集中化运维：日志/监控/任务看板上线，远程排障效率提升
车队系统：任务调度、地图服务、权限、远程控制逐步独立出来

仍然卡住的地方

缺乏治理闭环：告警噪音、根因难串联、复发率高
控制平面不成熟：map/config/policy 版本化与审计不足
回归体系弱：仿真与线上事故复现难以闭环

这一阶段解决了“能复制”，但还没解决“可持续运营”。

第三段（2022–2025）：Robot Service（云化服务 + Robot SRE）

关键词：SLA/SLO、事件模型、证据链、replay、回归门禁、灰度回滚、自愈

这一段是分水岭：系统软件开始像“云服务”一样运营机器人。

核心特征

控制平面（Control Plane）平台化
- map/config/policy/software 全版本化
- change_id 审计
- 灰度发布、自动回滚
数据平面（Data Plane）可靠性工程化
- topic 延迟、队列堆积、时钟漂移等成为一等监控
- 关键链路零拷贝/共享内存/优先级调度
证据链诊断（Observability + Replay）
- metrics/logs/traces/replay 四件套
- incident/event/action 事件模型
- 异常自动抓取上下文（task_id + 版本上下文）
自愈与低人工介入
- 重定位、重派单、组件重启、隔离、交通管制等动作库
- KPI：MTTR、自恢复率、复发率、人工介入率
仿真回归门禁
- 线上事故→replay→场景库→CI回归→发布门禁