IEEE/ASME Transactions on Mechatronics | 院士团队让移动机器人在复杂环境中学会主动避障

移动机器人在复杂动态环境中运动规划，既要快又要稳，还要安全。现有方法各有短板：MPC依赖精确模型，在线优化计算量大；RL数据效率低，训练好了也未必能应对未知障碍。

不是执着是你值得

177人浏览 · 2026-04-09 12:45:00

不是执着是你值得 · 2026-04-09 12:45:00 发布

论文信息

英文题目： Vector Field Augmented Reinforcement Learning for Adaptive Motion Planning of Mobile Robots

中文题目：面向移动机器人自适应运动规划的向量场增强强化学习

作者： Yang Lu, Weijia Yao, Cong Li, Yongqian Xiao, Xin Xu, Xinglong Zhang, Yaonan Wang, Dingbang Xiao

作者单位：国防科技大学、湖南大学、湖南第一师范学院

期刊： IEEE/ASME Transactions on Mechatronics（IF 6.4，中科院一区，JCR Q1）

发表时间： 2025年9月26日

链接： https://doi.org/10.1109/TMECH.2025.3593610

引文格式： Lu Y, Yao W, Li C, et al. Vector field augmented reinforcement learning for adaptive motion planning of mobile robots[J]. IEEE/ASME Transactions on Mechatronics, 2026, 31(1): 191-205.

01 全文速览

国防科技大学王耀南团队提出了一种向量场增强的强化学习（VF-RL）框架，把传统向量场的“导航直觉”和数据驱动的RL的“自适应能力”拧在一起。图1展示了VF-RL的整体架构：复合向量场提供实时安全引导（模块A），深度Koopman模型在线补偿动力学不确定性（模块B），滚动时域RL在安全边界和作动器约束下生成最优控制。

图 1 VF-RL框架：向量场引导 + 在线建模 + 滚动时域强化学习

VF-RL的核心逻辑：先让机器人知道“大概往哪走”（向量场给出无碰撞参考路径），再让RL在局部微调，同时用稀疏高斯过程在线修正模型误差。仿真和实车实验表明：VF-RL比LMPCC、MPC-CBF等优化方法计算更快（<0.01s/步），路径更短，且在动态障碍物、非结构化道路场景下均能稳定运行，最高车速3m/s。

核心亮点：

✅复合向量场再升级：引入虚拟障碍物和指数平滑函数，彻底解决传统向量场“突变”和“死锁”问题

✅ Koopman + 稀疏GP在线补偿：用深度Koopman建立线性化模型，再用稀疏高斯过程在线修正未建模动态

✅滚动时域RL：在预测时域内用核函数网络近似最优策略，收敛性和稳定性均有理论证明

✅实车验证：红旗E-HS3平台，静态/动态避障、路径跟踪、越野场景全通过

✅跨平台通用：四旋翼仿真同样验证，证明框架对机器人类型不敏感

02 研究内容

🧭 2.1 复合向量场：给机器人一条“有提前量”的安全路径

传统向量场在机器人进入障碍物反应区时，指引方向会突然跳变，导致机器人急转甚至失控。作者在原有复合向量场（图2）基础上引入了虚拟障碍物和指数平滑函数。

图2展示了原复合向量场的行为：在exR（灰色）、exQ∩inR（绿色）、inQ（蓝色）三个区域内，机器人分别执行路径跟踪、混合跟踪+避障、纯避障。但在黄色圆圈附近，向量方向突变，违反运动学约束。

图 2 原复合向量场在黄色圆圈处发生突变

改进后的设计如图3所示：在真实障碍物（灰色椭圆）外围添加一个虚拟障碍物（蓝色虚线椭圆），二者之间的缓冲区域内，向量场会平滑地将机器人引向虚拟障碍物的排斥边界，使其提前偏转方向，避免进入真实障碍物反应区时出现急弯。指数函数 \(s_i(\xi)\) 保证机器人在进入真实反应区后虚拟障碍物不再起作用。

图 3 改进后的复合向量场：虚拟障碍物提前引导方向

最后，将向量场预计算在网格地图上，实时查表获取当前引导方向，再根据最大向心加速度约束进行速度规划，确保高速行驶不侧滑。

🧠 2.2 实时自适应建模：深度Koopman + 稀疏GP

机器人动力学往往是非线性的，且模型参数会随工况变化。作者先用深度神经网络学习Koopman算子，把非线性系统映射到一个高维线性空间：

但这个离线模型仍然存在误差。于是引入稀疏高斯过程（FITC），用在线数据实时补偿：

将

建模为GP，得到补偿后的线性模型（14），并可以解析求出雅可比矩阵（15）。这个模块就是图1中的模块B，让VF-RL能够在模型失配和外部扰动下依然保持稳定。

图4对比了有/无在线模型补偿（VF-RL w/ ML vs w/o ML）的横向跟踪误差。可以看到，w/ ML的平均误差显著更低，尤其在里程后半段（模型已在线更新）差距更明显。

图 4 在线模型补偿显著降低横向跟踪误差

🎮 2.3 滚动时域强化学习：在安全边界内寻优

在向量场给出的参考路径附近，RL负责生成最优控制输入。作者设计了一个指数型障碍函数

，当机器人接近安全边界时代价指数上升。同时，在预测时域

内用两个核函数网络（actor/critic）近似最优值函数和最优策略，并给出迭代更新规则（31）。

Theorem 1 证明了值函数序列和控制序列收敛到最优解；Theorem 2 通过构造Lyapunov函数证明了闭环系统稳定。

图5直观展示了安全边界约束下的机器人轨迹，不同时刻的快照清楚显示了车辆始终保持在允许区域内。

图 5 安全边界约束下的轨迹快照

💻 2.4 仿真与实车验证

仿真1：静态+动态避障（CarSim）

图6对比了VF-RL与LMPCC、MPC-CBF、RHRL-KDP、CFS五种方法。VF-RL提前偏转方向，路径最平滑、长度最短；MPC-CBF用圆形包络椭圆导致绕远；CFS和LMPCC出现紧急避障导致超调；RHRL-KDP受约束影响网络发散。表I定量显示：VF-RL的综合代价J_MC最低（45.84），单步计算时间<0.01s，远低于其他方法的0.07~0.15s。