原文链接https://www.frontiersin.org/journals/neurorobotics/articles/10.3389/fnbot.2025.1697518/full

全文翻译

摘要

引言:

远程呈现机器人(TPRs)必须在受限的医院环境中与人类共同导航,其安全性取决于预测而非仅仅对人类运动做出反应。现有方法很少将短时域人体运动预测与安全约束控制相结合,这降低了在密集走廊和病房中的鲁棒性。本研究通过评估一个预见性、安全感知的TPR协同导航框架来解决这一差距。

方法:

我们开发了一个模块化框架,将轻量级基于Transformer的预测器(在遮挡条件下预测多智能体轨迹)与安全强化学习(RL)控制器相结合。预测器生成关于行人状态的短期分布,这些分布作为风险感知占用特征嵌入到RL策略状态和成本中。通过约束策略优化增强的运行时控制屏障函数(CBF)屏蔽层过滤不安全动作来强制执行安全性。我们将该方法与社会力或动态窗口方法(DWA)、基于注意力的人群RL策略以及带CBF的模型预测控制(MPC)进行了基准测试。实验在两个类似医院的基准场景(拥挤走廊和四床病房)中进行,总计2,400个回合。结果包括任务成功率、碰撞次数、最小人机间隙、近距离事件(≤0.3米)、到达目标时间、CBF违规以及移除预测和CBF屏蔽的消融实验。

结果:

相对于表现最佳的基线方法,所提出的方法将任务成功率提高了21.6%,碰撞减少了47.3%。中位最小人机间隙增加了0.19米,近距离事件减少了38.5%。到达目标时间保持在MPC+CBF的+2.7%以内,同时在屏蔽层下实现零CBF违规。消融研究表明,移除预测使成功率下降14.2%,而移除CBF屏蔽使约束违规从0%增加到6.1%的步数。

讨论:

预见性感知与安全强化学习相结合,在人员密集的临床布局中产生了更安全、更可靠的远程呈现协同导航,且不牺牲效率。该框架是模块化的,可以使用替代预测器和安全屏蔽。局限性包括在人群流动突然变化时对预测漂移的敏感性。未来工作将探索设备上的适应、结合操作员意图的共享自主覆盖层,以及在实际医院工作流程中的前瞻性评估。

1. 引言

远程呈现机器人(TPRs)越来越多地被部署在医院和长期护理(LTC)环境中,以扩展临床覆盖范围并维持社交联系。然而,在人员密集的病房和狭窄走廊中的导航仍然是可靠应用的关键障碍。最近的临床和转化研究表明,TPRs可以减轻护理人员负担和居民孤独感,并有助于维持护理连续性,凸显了它们在实际服务中的潜在价值(例如,LTC中的混合方法和前后试验)。同时,医疗保健中的操作试验强调了在动态、杂乱的临床空间中安全移动TPR的实际挑战,在这些空间中,可见性是部分的,人类运动是异质的。

社会感知机器人导航领域的大量工作形式化了人机协同导航规范,保持舒适距离,尊重隐含的路权,并协商瓶颈。大多数算法仍然使用短时域、基于历史的预测器或手工制作的交互模型进行规划。领先机器人学术期刊的最新综述记录了该领域的进展和开放挑战,包括遮挡下的可靠预测和人群中的原则性安全处理。这些综述特别呼吁在感知未来人类运动和保证安全的决策层之间建立更紧密的耦合,特别是在医院病房等受限室内空间中。

同时,人体运动预测已经通过Transformer架构取得进展,这些架构可以建模长程时间依赖性和多关节相关性。期刊报告表明,基于注意力的预测器可以提供准确、实时的短期和中期运动预测,适合机器人部署,并适用于受益于预测人类意图的协作任务。然而,这些感知模块很少集成到具有正式安全保证的闭环导航中;在医疗走廊中,即使是小的预测误差或突然的流动变化也可能导致不安全的接近,除非控制层明确具有安全意识。

这些特性与医院和LTC病房导航非常吻合,在这些环境中,工作人员和居民的流动遵循相对结构化的例行程序(例如,查房、用餐时间、治疗课程),运动通常较慢且需要辅助(助行器、轮椅),并且由于窗帘、家具和设备而频繁出现遮挡。在这种环境中,联合推理多个智能体和局部几何的基于注意力的预测器可以更好地预测远程呈现机器人周围的近期占用情况,使其能够为脆弱的居民和工作人员保持舒适的间隙,同时尊重狭窄的走廊和多床病房。

机器人的安全关键控制越来越多地利用安全过滤器——在运行时将候选动作投影到已知满足约束的集合上的方法。控制屏障函数(CBFs)提供了一个原则性框架来维持"安全集"的前向不变性,最近的期刊级教程和综述巩固了它们在自主系统中的理论和实践。这些工作强调,安全过滤可以补充高性能规划器或学习策略,但也警告在感知不确定性下的保守性和可行性问题——这正是TPR在间歇性遮挡的人群中移动所面临的情况。

与此同时,安全强化学习(Safe-RL)是指通过目标中的约束或风险度量明确编码安全性的强化学习方法;该领域已经从概念提议成熟为具有策略级约束和风险感知目标的综合框架。一篇综述综合了方法和理论(例如,约束马尔可夫决策过程(CMDPs)、拉格朗日方法、安全层),并列举了在实际机器人应用中部署Safe-RL的开放问题。互补工作调查了深度RL策略的验证和保证,提供了可以与在线安全过滤器结合的分析工具。尽管取得了这些进展,文献仍然缺乏明确融合学习的人体运动预测、Safe-RL策略和运行时CBF安全屏蔽用于医疗保健中TPR协同导航的演示。

本研究提出了一个集成框架,该框架:(i) 学习基于Transformer的预见性行人轨迹分布,条件是局部地图结构和遮挡;(ii) 通过风险感知占用特征将这些分布注入Safe-RL策略;(iii) 通过基于CBF的二次规划(QP)"屏蔽"在执行时强制执行硬安全,该屏蔽仅在必要时最小化修改策略的动作。该框架在两个类似医院的基准场景中进行评估——拥挤走廊和四床病房——并与涵盖社会力/DWA规划、基于注意力的人群RL和MPC+CBF的强基线进行比较。

本研究的贡献有三个方面:

  • 针对医院和LTC风格病房中远程呈现机器人协同导航的问题表述和模块化预测→策略→安全过滤器架构,该架构在遮挡和延迟下耦合基于Transformer的人体运动预测、Safe-RL和离散时间CBF安全屏蔽。

  • 预测感知Safe-RL和CBF设计,将短时域多智能体分布转换为风险特征和机会鲁棒间隙约束,使用CMDP与条件风险价值(CVaR)风格成本和双更新安全预算。

  • 基于仿真的评估协议和数据集,用于两个类似医院的基准场景(走廊和四床病房)中的远程呈现协同导航,包括与强社会导航基线(ORCA、DWA、PPO、MPC+CBF)的比较、消融以及延迟/拥挤敏感性分析。

本研究的其余部分组织如下。第2节回顾了人体运动预测、共享自主、Safe-RL和控制屏障函数的相关工作;第3节形式化了协同导航问题、动力学和安全约束;第4节详细介绍了所提出的方法——基于Transformer的预测、风险感知RL、CBF安全屏蔽和端到端控制周期。第5节描述了实验设置(病房布局、数据集/仿真、基线、指标和协议);第6节报告了消融和敏感性分析的结果;第7节讨论了影响、局限性和可推广性;第8节总结并概述了未来工作。

2. 文献综述

来自LTC、医院和家庭护理环境的证据表明,移动远程呈现可以改善沟通、加快专家访问并支持以人为本的护理,同时引发关于工作流程集成、隐私以及工作人员和家属接受度的持续关注。综述和定性研究强调了在繁忙病房和走廊中鲁棒导航和自主性的差距、与工作人员和访客协同导航的有限支持,以及在不确定人类运动下对安全保证自主性的需求。这些局限性促使针对临床布局量身定制的人类感知预测和安全关键共享自主的技术进步。

在过去五年中,综述巩固了社会导航的要求——物理和感知安全、可读性、自然性以及遵守社会规范——同时记录了缺乏标准化评估和医院特定基准。在规划器层面,广泛使用的基线包括用于反应式局部碰撞避免的动态窗口方法(DWA)和用于多智能体人群导航的最优互惠碰撞避免(ORCA),通常在类似医院的仿真中与社会力或势场启发式相结合。经验近体学研究量化了舒适的通过距离和个人空间包络,这些随着机器人速度和场景而扩展。算法工作越来越多地将近体学嵌入规划器中,但跨密度和群体结构的泛化仍然脆弱。总的来说,这些发现主张导航堆栈明确建模人类运动和不确定性,并暴露与人类操作员的安全感知混合。

Transformer变体现在主导交通和人群环境中的行人和智能体预测,提供非自回归解码、社交图注意力和多模态预测。尽管如此,综述和基准强调了对领域转移(特定地点行为)、长时域退化和不确定性校准的敏感性——这些问题在流动是间歇性的(例如,换班)且空间受限的医院中尤为严重。这促使将学习预测与可以适应分布转移同时保持社会舒适度的在线安全层相结合。

最近的教程和综述将CBFs编纂为前向不变性约束,当与控制Lyapunov项或模型预测控制(MPC)结合时,使安全集保持鲁棒不变。新兴变体将CBFs与MPC集成用于动态障碍物避免和可行性恢复,并开始解决移动机器人上的实时操作。这些方法提供了清晰的安全证书,但需要可靠的状态和障碍物估计,并且在没有学习意图或预测的情况下可能过于保守。

最接近我们设置的是,Samavi等人引入了SICNav-Diffusion,它将基于扩散的联合人类轨迹预测与双层MPC公式相结合,该公式细化机器人计划和人类预测以实现安全人群导航。与此同时,Mohamed、Ali和Liu提出了一种机会约束采样MPC(C2U-MPPI),它利用无迹采样和概率机会约束在不确定动态环境中实现鲁棒碰撞避免。这些工作将概率预测或不确定性感知约束与MPC风格控制器紧密耦合,但它们不采用Safe-RL或CBF屏蔽,也不针对医院病房中的远程呈现协同导航;相比之下,我们的框架使用基于Transformer的预测作为CMDP基础Safe-RL策略中的信念特征,由模块化CBF安全过滤器包装,并在临床驱动的布局中进行评估。

跨机器人和自主性的综述追踪了朝向约束MDPs、屏蔽和预测安全过滤器以及风险敏感目标的趋势,以在学习和部署期间维持约束。尽管取得了进展,综述确定了在探索期间的策略安全、在感知和模型不确定性下的严格保证以及在存在罕见但关键事件的情况下的样本效率方面的差距——这些是医院走廊中常见的条件。反复建议将Safe-RL与基于CBF或MPC的证书相结合,以实现适应性和正式安全性。

远程操作和辅助设置中的期刊研究汇聚于通过意图预测(凝视、EMG、运动线索)进行自适应权限分配,用户研究证据表明透明度和辅助时机影响一致性和满意度。然而,大多数系统假设低动态场景,并且在混合用户和自主输入时不融合人群运动预测与认证安全层——这是病房和走廊中远程呈现协同导航的关键限制。

文献提供了:(i) 临床驱动的要求和采用障碍,(ii) 强大但对环境敏感的Transformer预测器,(iii) 通过CBF/MPC的正式安全层,(iv) 用于自适应策略的Safe-RL,以及 (v) 用于权限混合的共享自主机制。然而,一个统一的管道,将基于Transformer的人体运动预测与在线CBF/MPC安全过滤器下的Safe-RL策略相结合,用于医院中的远程呈现协同导航——并使用来自社会导航标准的社会舒适度和安全指标评估性能——受到的关注有限。所提出的研究针对这一集成和临床评估差距。

3. 问题表述

本研究将临床布局中的远程呈现协同导航形式化为具有随机人类动力学、部分可观察性和运行时安全过滤器的约束、风险敏感决策过程。

3.1 符号和记号

本节从正式问题定义(POMDP和CMDP)进行到学习和控制模块使用的具体量。每个小节在本地引入符号,并将它们明确连接到后面第4节中描述的算法组件。为避免歧义,每个符号在整个研究中以单一、一致的含义使用。为清楚起见,我们在第3节和第4节中专门使用_x__t_表示机器人状态,_Y__t_表示联合人类状态。

3.2 环境、智能体和地图几何

设医院布局为紧凑集M⊂ℝ²,自由空间为F=M\O,其中O是静态障碍物(墙壁、床、推车)的并集。签名距离场(SDF)dO:F→ℝ>0给出到∂O的欧几里得距离。

TPR是具有独轮车动力学的差动驱动平台。行人被建模为圆盘智能体。

  • 机器人状态xt=[pt⊤,θt,vt]⊤∈ℝ⁴,位置pt=[xt,Yt]⊤,偏航角θ_t和线速度v_t。
  • 控制u_t = [a_t, ω_t],纵向加速度a_t和偏航率ω_t。
  • 连续时间动力学:ẋ=f(x,u)=[vcosθ, vsinθ, ω, a]⊤,x(0)=x₀
  • 离散时间动力学在零阶保持(ZOH)下,采样步长Δt:xt+1=xt+Δtf(xt,ut)+wt

在时间t有N_t个行人,索引为i∈{1,…,N_t},位置Yti∈F。目标区域G={p:||p-p_goal||≤r_goal}。

我们将静态安全集定义如下:
Sstat={x∈ℝ⁴:dO§≥Rwall}

它由所有机器人状态组成,其位置p与由SDF dO(·)编码的静态障碍物保持至少半径R_wall,舒适半径R_wall>0。

3.3 观测、部分可观察性和信念

传感器(LiDAR/相机)在可见性区域Vt⊂F内提供检测z_t(考虑墙壁和设备的遮挡)。协同导航问题被建模为部分可观察马尔可夫决策过程(POMDP),对联合人类状态Yt≜{Yti}的信念为b_t,其中Yti表示时间t时行人i的状态(例如,2D位置,可选速度)。

设z_t表示时间t的传感器检测集(例如,来自LiDAR/RGB-D的跟踪2D位置),在可见性区域Vt⊂F内观察到。人类运动模型为τ(Y_t+1|Y_t),即联合人类状态的转移密度。观测似然为O(zt|Yt,Vt),它通过Vt考虑遮挡和部分可观察性。我们使用b_t(Y_t)表示条件于观测历史的联合人类状态上的信念分布。

  • 观测模型:zt~O(·|Yt,Vt),其中Vt编码病房布局中的遮挡感知可见性。
  • 联合人类状态上的信念演化遵循信念更新(贝叶斯滤波器)递归:
    bt+1(Yt+1)∝∫τ(Yt+1|Yt)bt(Yt)dYt·O(zt+1|Yt+1,Vt+1)

在实践中,我们不维护联合人类状态上的显式基于网格的信念;相反,Transformer预测器(第4.1节)通过将跟踪检测和遮挡感知地图上下文映射到行人运动的短时域分布来实现此贝叶斯滤波器的预测步骤。这些分布作为馈送到Safe-RL控制器和CBF屏蔽的紧凑信念摘要。

为了实现可处理的控制,所提出的公式将基于预测的b_t摘要嵌入到增强MDP状态s_t中。

3.4 目标、约束和任务成功

定义有限时域T。设c(x_t,u_t;Y_t)为瞬时任务成本,g_j(x_t,u_t;Y_t)≤0为约束函数(安全/舒适),j=1,…,J。

  • 进度:c_prog(x_t)=||p_t-p_goal||²
  • 平滑度:csm(ut)=λvat²+λωωt²
  • 为建模社会舒适度,我们定义成本:
    csoc(xt;Yt)=∑ϕ(||pt-Yti||²)
    它惩罚机器人位置p_t和附近人类Yti之间的接近度,从而鼓励社会合规导航行为。我们使用ϕ®=max(0,Rcomfort-r)²。

总每步成本定义为:
c(xt,ut;Yt)=αcostcprog+βcostcsm+δcostcsoc

这通过加权项α_cost、β_cost和δ_cost结合了朝向目标的进度、运动平滑度和社会舒适度。

动态人机安全约束。我们将每个行人i建模为半径r_hum的圆盘,机器人足迹为半径r_rob的圆盘。设
rsafe≜Rsafe+rrob+rhum+rbuf

其中R_safe是名义人际舒适边距,r_buf是额外的鲁棒性缓冲区。相对于行人i的硬安全约束为:
gi(xt;Yt)≜rsafe²-||pt-Yti||²≤0, i=1,…,Nt

这个定义使g_i(·)成为签名安全边距:当机器人保持在每个行人周围的安全圆盘外时,它是非正的。

静态墙壁安全通过约束强制执行:
gwall(xt):=Rwall-dO(pt)≤0

这确保机器人始终保持在墙壁和其他静态障碍物周围的禁止边距之外。

目标:如果pT∈G则成功;在任何g_j>0或超时时失败。

设累积任务成本为Z=∑c(xt,ut;Yt)。对于α∈(0,1),CVaR目标为:
minπCVaRα(z)=minπ,ηη+1/(1-α)E[(Z-η)+]

受机会约束安全(第3.4节)和积分器动力学约束,其中(.)+=max(.,0)。

约束MDP(CMDP)形式为:
minπ E[∑c(.)]
s.t. E[∑I{gj(.)>0}]≤κj, ∀j

这里I_·表示指示函数,即如果谓词A为真则I_A=1,否则为0。常数κ_j≥0是每回合安全预算,它上界约束g_j(·)被违反的预期时间步数(例如,墙壁或人类安全违规),从而定义CMDP中的可行策略集。拉格朗日松弛产生乘数λ_j≥0和惩罚目标∑t[c+∑jλjI{gj>0}]。

3.5 预测驱动的风险特征和机会约束

基于Transformer的预测器为每个行人提供多步、多模态分布:
Yt+τi~pt+τi(.|Ht), τ=1:H

其中Ht收集最近的轨迹、地图上下文和遮挡掩码。为了可处理性,我们假设高斯混合模型(GMMs)或样本。

3.5.1 占用风险场

为时域τ定义连续占用强度:
Φt(z,τ)=∑∑πiκ·N(z;μiκ(τ),Σiκ(τ))

具有混合权重π_ik。以下风险特征馈送到策略:
ϱt=[maxτ≤HΦt(pt,τ), ∫B(pt,ρ)maxτ≤HΦt(z,τ)dz, minτ≤HminiE||pt-Yt+τi||]

3.5.2 相对于预测人类的机会约束安全

对于每个i、τ施加:
P(||pt-Yt+τi||²≥Rsafe)≥1-ϵ

如果Yt+τi~N(μ,Σ),通过单侧Chebyshev/椭球界的保守高斯机会约束给出:
hi,τ(pt):=||pt-μ||²-κ1-ϵλmax(Σ)-Rsafe≥0

其中κ1-ϵ=Φ⁻¹(1-ϵ)。等价地,用于CBF设计的平方形式:
h̃i,τ(pt):=(||pt-μ||²-κ1-ϵλmax(Σ))²-Rsafe²≥0

动态安全集变为:
Sdyn(t)=∩i,τ{x:h̃i,τ(pt)≥0}

整体安全集为S(t)=Sstat∩Sdyn(t)。

3.6 离散时间CBF约束

对于每个安全函数h(x,t)(静态墙壁;预测人类),离散时间前向不变性由不等式强制执行:
h(xt+1,t+Δt)-(1-γ)h(xt,t)≥0, γ∈(0,1)

这保证h≥0⇒h保持非递减直到衰减γ。

使用在(x_t,u_t)处的一阶动力学线性化:
h(xt+1)≈h(xt)+∇xh(xt)⊤(xt+1-xt)=h(xt)+Δt∇xh(xt)⊤f(xt,ut)

因此,u_t中的线性约束:
-Δt∇xh(xt)⊤∂f/∂u(xt)ut≤h(xt)-Δt∇xh(xt)⊤f(xt,0)-(1-γ)h(xt)

  • 静态墙壁CBF:hwall(x)=dO§-Rwall,∇xh=[∇pdO⊤,0,0]⊤
  • 行人CBF(机会鲁棒):使用h̃i,τ(x),∇ph̃=2(||p-μ||²-δ)(p-μ)/||p-μ||²,其中δ=κ1-ϵλmax(Σ)

收集所有活动CBFs产生:
Atut≤bt

3.7 延迟感知状态预测

设Δsens为感知到执行延迟,Δnet为远程操作网络延迟。控制作用于x_t+Δ,Δ=Δsens+Δnet。使用预测状态:
x̂t+Δ=xt+Δf(xt,ut-1), p̂t+Δ=pt+Δvt[cosθt,sinθt]⊤

所有CBF和机会约束在x̂t+Δ处评估以预先防止延迟效应。

3.8 通过二次规划的屏蔽动作

给定来自Safe-RL控制器的名义策略动作,屏蔽解决:
ut⋆=argminu∈ℝ²||u-utnom||²²
s.t. At(x̂t+Δ)u≤bt(x̂t+Δ)

该解决方案在保证不确定性边距下的离散时间CBF不变性的同时最小化扰动名义动作。对于m个活动约束和2D控制,计算复杂度为O(m)的活动集QPs。

3.9 用于学习的增强MDP状态

Safe-RL策略观察增强状态:
st=[xt, pgoal-pt, Ψ(pt), ϱt, ξt]

其中ψ(pt)=[dO(pt),∇pdO(pt)⊤],ξ_t=[Δsens,Δnet],动作空间为U={u:umin≤u≤umax}。

3.10 假设和可行性
  • 地图SDF dO是Lipschitz且几乎处处可微;||∇pdO||≤1
  • 预测协方差Σ承认λ_max(Σ)并在[t,t+H]上有界
  • 控制界限确保在温和备份策略下的QP可行性;如果不可行,回退制动u=[a_min,0]是可接受的,并为静态墙壁产生非递减函数

Transformer提供预测分布;风险特征和机会约束编码不确定性;Safe-RL策略提出动作;离散时间CBF-QP屏蔽在延迟和遮挡下强制执行不变性。这个数学脚手架支持后续的算法和实验组件。

4. 方法论

所提出的研究描述了详细的端到端预测→策略→安全过滤器框架,该框架使TPR能够在医院布局中进行预见性、安全保证的协同导航。该方法包括三个紧密耦合的层:(i) 基于Transformer的人体运动预测器,输出多步、多模态轨迹分布;(ii) Safe-RL控制器,消耗从预测派生的风险特征并优化约束目标;(iii) 离散时间CBF屏蔽,在运行时将控制器的动作投影到可证明安全的集合中,并进行延迟补偿。

在操作上,Transformer的预测多智能体分布构成隐式信念状态,总结贝叶斯滤波器更新并通过风险感知占用特征进入Safe-RL策略,而CBF屏蔽对结果动作强制执行硬安全。报告实现选择以确保完全可重复性并支持消融研究。

4.1 基于Transformer的人体运动预测器

本小节描述基于Transformer的人体运动预测器,该预测器提供短时域、不确定性感知的多智能体轨迹分布,用作下游控制的风险特征。

4.1.1 输入

在每个时间步t,预测器接收跟踪行人状态的滑动窗口{yt-l:ti}(带可选速度的2D位置)、机器人姿态x_t、局部地图补丁(SDF和可见性掩码)以及以智能体为中心的特征(成对位移和占用栅格)。由于遮挡而缺失的检测被明确掩码。

4.1.2 架构

在所提出解决方案的系统架构中使用轻量级、延迟感知的Transformer:

  • 标记化:每个智能体的时间标记和上下文地图标记
  • 编码器:智能体标记上的多头自注意力以捕获社交交互
  • 交叉注意力:智能体标记关注地图标记(门、墙、瓶颈)
  • 解码器:非自回归,为每个智能体预测H步
  • 输出头:每步高斯混合参数{π_ik, μ_ik, Σ_ik}

Transformer预测器配置为浅深度和有限数量的头和标记,以满足远程呈现平台上的实时推理要求;上述所有架构组件保持不变,并在每个控制周期执行。

4.1.3 不确定性校准

对混合方差应用温度缩放,并在马氏距离上使用分位数匹配缩放以将预测协方差与经验误差对齐(仅校准集)。为减少过度自信,每个高斯分量受方差下限约束以防止特征值崩溃到不切实际的小值,并且校准的马氏距离与保留集上的经验误差分位数匹配。这些校准的协方差直接馈送到机会鲁棒CBF设计中,该设计使用高分位数安全因子将预测不确定性转换为保守间隙边距。

4.1.4 训练目标

未来轨迹上的负对数似然(NLL)与不确定性正则化器:
Lpred=-∑log(∑πikN(yt+τi|μik(τ),Σik(τ)))+λΣ∑tr(Σik(τ))

4.1.5 用于控制的风险特征

预测分布被转换为紧凑特征ϱ_t:(i) 机器人周围的最大占用强度,(ii) 半径ρ内的近场概率质量,(iii) 预测的最小间隙;以及 (iv) 流向直方图(可选)以消除反向流的歧义。

4.2 安全强化学习控制器

本小节详细介绍Safe-RL控制器,它被表述为约束马尔可夫决策过程,消耗预测派生的风险特征以在安全预算内优化任务性能。

4.2.1 CMDP设置

控制器解决具有风险敏感目标和安全违规约束预算的约束MDP。该模块实例化第3.3节中CMDP的Safe-RL公式,其中安全性表示为CBF松弛激活和近距离事件的预期计数,风险敏感性通过CVaR风格辅助目标捕获。增强观测为:
st=[xt, pgoal-pt, ψ(pt), ϱt, ξt]

这里,s_t连接机器人状态x_t、预测器派生的风险特征r_t、基于SDF的静态地图特征ϕ_SDF(到墙壁、门和瓶颈的距离)以及编码感知和执行延迟的标量Δ。这种增强观测将预见性风险信息和延迟感知几何暴露给Safe-RL控制器。

4.2.2 策略和价值函数

使用两个MLPs(行动者和评论者)。行动者输出[a_t,ω_t]上的高斯分布,具有状态相关的均值和对角协方差;压缩强制执行动作界限。

4.2.3 学习算法

使用拉格朗日PPO变体:

  • 主要目标:具有CVaR代理的预期回报(辅助头估计尾部风险)
  • 约束:CBF违规的预期计数(来自屏蔽诊断)和近距离事件(≤0.3 m)
  • 双更新:通过投影梯度上升更新每个约束乘数
  • 探索:不使用离策略重放;熵正则化稳定探索

实际上,行动者参数θ和评论者参数被更新以最大化裁剪的PPO代理,同时将约束成本的经验估计(屏蔽松弛激活和近距离事件)保持在其预算以下,当这些成本超过指定阈值时,拉格朗日乘数作为惩罚权重进行调整。

原则上,可以通过CBF-QP进行微分并将屏蔽视为策略的一部分,使用隐函数梯度,以便屏障参数直接塑造行动者更新。我们故意保持屏蔽模块化且不可微:CBF参数在控制层调整以保持清晰的前向不变性保证,并允许保守、可认证的回退,即使策略被更新。探索可微CBF屏蔽以及屏障和策略之间更紧密的端到端耦合留作未来工作。

4.2.4 奖励和成本(塑造)
  • 进度奖励r_prog=η(||p_t-1-p_g||-||p_t-p_g||)
  • 对|a_t|和|ω_t|的平滑度惩罚
  • 与∑iϕ(||pt-yti||)成比例的社会舒适成本
  • 终端成功奖金;碰撞终止具有大惩罚
4.2.5 设计选择和技术原理

框架的技术设计受到需要平衡预见性感知质量、正式安全保证和嵌入式TPR硬件上的实时可部署性的指导。选择基于Transformer的预测器而不是循环或基于图的替代方案,因为短时域自注意力捕获智能体间交互,同时允许并行推理和固定延迟解码;非自回归输出头进一步减轻了0.8-1.6秒预测时域内的误差累积。占用场风险表示将多智能体轨迹分布压缩为低维特征,这些特征在遮挡下保持稳定,并可直接用于构建机会鲁棒CBF约束。

在控制方面,导航被表述为具有辅助CVaR目标的约束马尔可夫决策过程,而不是纯粹的预期回报PPO公式,以将策略塑造为在密集人群和罕见但关键事件中规避尾部风险的行为。基于CBF的安全屏蔽保持模块化和基于模型,即使学习策略遇到分布外状态,也能保留前向不变性保证;松弛变量和屏蔽诊断被调整以优先考虑可行性,同时在训练期间暴露可解释的干预统计数据。

最后,预测时域、状态增强和奖励/成本塑造经过经验校准,以权衡效率与社会舒适度:较短的时域降低了对穿越行人的预期,而较长的时域增加了预测漂移和CBF保守性,降低了成功率并诱发停停走走行为。为防止"屏蔽近视",评论者接收屏蔽的双残差和动作偏差作为输入;行动者被正则化到低干预区域。

4.2.6 学习期间的安全

屏蔽在训练期间在线运行以避免不安全的数据收集。设atπ表示从策略采样的无约束动作,atsh表示QP返回的屏蔽动作,并定义干预向量δat=atsh-atπ。设λ_t表示QP中CBF约束的最优双变量(拉格朗日乘数)向量。

在行动者-评论者更新期间,轨迹使用屏蔽控制atsh展开,回报和约束成本始终在这些屏蔽动力学下计算。策略梯度使用logπθ(atπ|st)以及从屏蔽轨迹估计的优势Ât,因此评论者学习条件于(s_t,δa_t,λ_t)的值,策略被推向屏蔽很少且弱干预的动作空间区域。这种设计并不完全消除"近视",但通过使屏蔽活动对价值函数和正则化行动者都明确可见,在经验上减少了它。

4.3 离散时间CBF安全屏蔽

本小节介绍离散时间CBF安全屏蔽,它将Safe-RL策略包装在二次规划中,该规划在预测不确定性和延迟下强制执行安全集的前向不变性。

4.3.1 安全函数

在每一步强制执行两个族:(i) 使用地图SDF的墙壁CBFs;(ii) 结合预测不确定性的人类CBFs(机会鲁棒函数h̃i,τ)。

4.3.2 不等式

对于每个活动安全函数h,离散时间CBF条件:
h(xt+1)-(1-γ)h(xt)≥0

被线性化为控制中的仿射约束。

所有活动约束堆叠到Atut≤bt中。

4.3.3 QP投影

屏蔽解决:
ut⋆=argminu||u-utnom||²² s.t. Atu≤bt, umin≤u≤umax

QP返回屏蔽控制atsh和与活动线性化CBF约束相关的拉格朗日乘数向量λt∈ℝ≥0m。λ_t的条目量化每个安全约束在最优处的紧密程度,并与松弛变量一起提供描述屏蔽干预强度和频率的紧凑诊断信号。允许小松弛和大惩罚以实现数值可行性;松弛激活被记录为CMDP约束的违规。

所有CBFs在预测状态x̂t+Δ处评估以对抗感知和网络延迟。相同的预测馈送QP。

4.4 端到端控制周期

所提出的协同导航堆栈以30-50 Hz执行,并实现具有显式延迟补偿的预测→策略→安全过滤器管道。在每个控制滴答,跟踪检测,预测短时域人类运动分布,构建紧凑风险特征,并形成增强状态。Safe-RL行动者发出名义动作,该动作由在延迟补偿预测状态下评估的离散时间CBF-QP屏蔽投影。应用屏蔽动作,记录诊断,并且(在训练模式下)更新策略和双变量。

管道:感知和跟踪→检测、数据关联、遮挡掩码。预测→Transformer为可见和最近可见的智能体预测H步。风险特征→从预测分布计算ϱ_t。策略→行动者给定s_t返回utnom。屏蔽→在x̂t+Δ评估CBFs并为ut⋆解决QP。执行→将ut⋆发送到机器人;记录屏蔽残差和松弛。学习(训练模式)→收集转换;在小批量中更新行动者/评论者和拉格朗日乘数。

4.5 理论性质(草图)

本小节解释如何使用延迟感知预测状态建模感知和网络延迟,该状态在CBF约束和屏蔽的QP中一致使用以预先防止延迟引起的违规。

4.5.1 前向不变性

如果对于所有活动安全函数h,线性化离散时间CBF约束成立,则安全集S(t)={x:h(x,t)≥0∀h}在具有ZOH的闭环动力学下是前向不变的。机会鲁棒性通过h̃i,τ中的不确定性边距进入;保证在水平ϵ处是保守的。

4.5.2 有界干预

QP是utnom到凸集U∩{u:Atu≤bt}的欧几里得投影。因此,|ut⋆-utnom|²在安全动作中是最小的,限制了名义策略的失真并支持稳定学习。

4.5.3 延迟下的约束满足

对于x̂t+Δ的有界模型误差和Lipschitz h,可行性边距与Δ和预测误差成线性比例;安全因子γ和SDF梯度确定所需的减速包络。

4.6 计算复杂度和实时预算

Transformer在注意力中缩放为O((Nℓ)²);使用稀疏邻域注意力,这变为O(Nℓk),k≪Nℓ。对于N≤15和ℓ≤12,运行时间通常在嵌入式GPU上<10 ms。

MLP推理为O§,P为参数,通常在嵌入式CPU上<0.2 ms。

QP有两个决策变量和m个线性约束;活动集方法在O(m)中运行。对于m≤12,求解时间<0.3 ms是典型的。

该周期适合嵌入式平台上的20-30 ms;所选设计保留30-50 Hz控制,并为感知留有余地。

4.7 消融和诊断钩子

本小节定义增强MDP状态,该状态将机器人、地图、预测和延迟特征捆绑到行动者-评论者网络的固定维表示中。

  • 无预测:移除风险特征ϱ_t;策略仅观察瞬时检测
  • 无屏蔽:禁用CBF投影;约束成本保留在CMDP中
  • 短时域:H减少50%
  • 未校准:禁用温度缩放
  • 高延迟:Δ增加两到三倍
  • 风险盲:禁用CVaR头;仅预期成本

每个消融记录成功率、碰撞率、最小间隙、近距离率、到达目标时间、屏蔽激活率和平均QP偏差||u⋆-u_nom||。

该方法将预期(Transformers)和安全(Safe-RL + CBF)操作化为具有显式延迟处理和可验证约束的模块化架构。表格提供了用于复制和受控消融的紧凑材料清单。

4.8 实现细节

本小节总结了运行时执行的完整预测→策略→安全过滤器控制循环。

4.8.1 跟踪

使用具有马氏距离门控的恒速卡尔曼滤波器进行数据关联;缺失≤M帧的轨迹以增加的协方差携带。

4.8.2 预测时域

H∈[8,16]步(10 Hz时0.8-1.6秒)平衡前瞻和漂移。每个智能体的混合分量K∈{3,5}。

4.8.3 归一化和掩码

输入以智能体为中心;地图补丁与机器人的航向对齐。遮挡作为二进制掩码注入到标记和栅格上。

4.8.4 策略架构

行动者/评论者网络使用两到三个具有层归一化、Tanh激活和具有下界的状态相关对数标准差的隐藏层。

4.8.5 训练

策略更新每N步发生一次,使用GAE进行优势估计;为(i) CBF松弛率,(ii) 近距离率,以及 (iii) 墙壁接近违规维护拉格朗日乘数。

5. 实验设置

所提出的研究将评估环境建模为由墙壁、门、床、窗帘和固定设备定义的2D平面图表示的医院风格病房。平面图被栅格化为占用网格和SDF,这些被运动规划器和Transformer的地图编码器使用。行人流量由遵循目标导向轨迹的模拟人类智能体生成,具有基于ORCA的碰撞避免,而远程呈现机器人使用下面描述的每个导航堆栈从入口姿态命令到床边目标区域。

本工作中的所有实验都在从平面图实例化的基于物理的模拟器中进行。所有行人智能体都是纯虚拟的,并根据此模拟环境中的人群运动模型(例如,基于ORCA的控制器)演化;没有从真实患者、工作人员或访客收集轨迹、传感器流或其他测量。因此,该研究应被解释为在理想化医院病房布局中对导航算法的基于仿真的评估,而不是对人类受试者的临床试验或观察研究。

5.1 导航算法

该研究将所提出的方法(基于Transformer的轨迹预测+ Safe-RL规划器+ CBF)与标准基线进行了比较。所提出的管道工作如下:在每个时间步,Transformer神经网络预测附近人类的未来位置(基于他们过去观察到的路径),类似于最近的工作如Social-TransMotion,使机器人能够预测人类运动。然后,强化学习(RL)策略选择运动命令;该策略使用安全约束进行训练。在实践中,该研究通过在学习策略之上添加基于CBF的安全层来实现Safe-RL。如果RL动作违反安全约束(例如,过于接近人类),CBF将其投影到最近的安全动作。这确保机器人在训练或部署期间永远不会进入不安全区域。

感知使用平面LiDAR和前向RGB-D传感器进行模拟,产生填充0.1 m占用网格的距离和深度观测。明确建模视野限制和来自床和人类的遮挡以镜像真实视线约束。

基线导航堆栈。我们比较四个导航堆栈:

i. ORCA堆栈(反应式多智能体控制器)。机器人由使用RVO2库的ORCA控制;人类和机器人都是ORCA智能体,机器人的命令速度是ORCA解决方案。没有全局规划器、预测模块和安全屏蔽——该堆栈代表广泛使用的反应式人群导航基线。

ii. DWA堆栈(经典ROS导航)。基于2D网格的全局规划器(Dijkstra/A*)在静态地图中规划,而DWA局部规划器使用人类的瞬时LiDAR检测作为移动障碍物选择可接受的速度。该堆栈没有学习预测、Safe-RL和CBF屏蔽,代表标准ROS风格导航堆栈。

iii. PPO堆栈(仅学习控制器)。策略PPO控制器接收与所提出方法相同的瞬时观测,但没有预测派生的风险特征;它使用相同的任务奖励进行训练,但没有CBF安全屏蔽。该堆栈通过提供纯学习基线而不进行正式安全过滤来隔离Safe-RL加屏蔽的效果。

iv. 所提出的预测+ Safe-RL + CBF堆栈。完整堆栈使用第4.1-4.3节中描述的基于Transformer的人体运动预测器、风险感知Safe-RL控制器和离散时间CBF-QP屏蔽,包括延迟感知状态预测和机会鲁棒人类CBFs。第6节中的所有消融(无预测、无屏蔽、短时域、风险盲)都是通过选择性禁用组件从该堆栈派生的。

5.2 评估指标

该研究测量了六个回合级指标:(i) 成功率——机器人在没有任何碰撞的情况下到达目标的试验分数;(ii) 碰撞(约束)违规——至少有一次碰撞的试验分数,定义为中心到中心人机距离d_hr低于碰撞阈值d_coll=0.2 m;(iii) 到达目标时间——机器人进入目标区域或达到超时之前经过的时间;(iv) 接近违规——时间步率d_hr<d_prox=0.5 m,对应于"个人空间"舒适半径;(v) 最小间隙——回合中的最小d_hr;以及 (vi) 近距离率——0.2 m<d_hr≤0.3 m的时间步百分比,捕获机器人通过不舒服地接近但没有物理接触的回合。

距离计算到最近的人类或床;路径效率指标(相对路径长度和相对到达目标时间)通过针对自由空间运行进行归一化而得出。这些定义与表4-7和图5-7中报告的指标匹配。

碰撞阈值d_coll=0.2 m大致对应于模拟TPR足迹(≈0.18 m半径)的物理接触。近距离带(0.2 m<d_hr≤0.3 m)和舒适半径d_prox=0.5 m与人机相遇中舒适通过距离的近体学研究以及室内环境(特别是类似医院的走廊)中使用的社会导航基准一致。这些值也与问题表述(第3节)中定义的舒适半径一致,我们验证了适度变化(±0.1 m)不会改变方法的相对排名。

这些指标捕获人类舒适度:在近体学理论中,人类需要一定的个人空间才能感到舒适,因此频繁侵入该区域会受到惩罚。该研究还测量了路径长度和效率,包括相对到达目标时间和相对路径长度(定义为拥挤运行中机器人的时间或路径长度除以自由空间运行中的时间或路径长度)。成功率和最小间隙也已在先前工作中使用。在实践中,这些指标在代码中计算和记录(例如,在每个时间步维护距离列表和标志,并在试验后聚合)。总"事件计数"(碰撞+严重接近违规)可以作为综合安全分数。主要结果测量是到达目标时间、成功率、安全边距违规和接近统计;还记录运动学轨迹V(t)和ω(t)。为可重复性总结了几何定义和屏蔽强制执行的安全集。

5.3 仿真可视化

作为说明性场景,图6显示了与图2相同的病房布局在模拟器中实例化,带有示例行人轨迹以及ORCA和所提出的预测加屏蔽控制器的相应机器人路径,突出了控制器如何利用预见性预测在床和工作人员周围保持更大的间隙。左侧面板显示反应式基线轨迹,而右侧面板显示同一场景中所提出的预测加屏蔽控制器。

6. 结果

该研究使用几个标准性能指标评估了所提出的导航算法与基线方法的对比。具体而言,测量的指标如下:

  • 成功率——机器人在没有任何碰撞的情况下到达目标的试验分数
  • 碰撞(约束)违规——以碰撞结束的试验分数(即,安全约束的违规)
  • 到达目标时间(导航时间)——机器人到达目标所花费的时间
  • 安全边距/接近违规——到任何障碍物或人类的最小距离(安全边距);每次该距离低于预定义阈值时都被计为接近违规

所提出的方法表现出最低的中位到达目标时间,四分位距范围明显更紧,表明任务完成更快且更一致,同时实现最高的中位间隙和更少的低间隙异常值。均值(实心圆)与中位数(黑色条)一致,表明对偏斜的鲁棒性,而基线显示更宽的尾部和几个极端情况。总的来说,图7显示所提出的方法在提高效率的同时保持更大的安全边距,而不是在两者之间进行权衡。

表5报告了基线和所提出方法的每个指标的均值和标准差。结果清楚地表明,所提出的方法实现了更高的效率和安全性。例如,所提出的方法实现了约98.6%(±0.4%)的平均成功率,而基线为约96.6%(±0.8%),将每次试验的碰撞率从约3.4%降低到约1.4%。类似地,所提出方法的平均到达目标时间(9.00±0.3秒)比基线(9.79±0.5秒)更短。在所提出的策略下,接近违规也显著减少。这些改进与先前工作一致。

如图8所示,学习曲线进一步说明了这些效果在训练过程中的表现。成功率曲线(图1A)在所提出方法下快速上升到1.0,而基线在较低水平停滞。相应地,所提出方法的碰撞率(图1B)更快地下降到零。到达目标时间(图1C)也收敛到所提出算法的较低值。

图9显示了示例导航轨迹:面板(A)说明了简单场景,面板(B)说明了复杂场景。黑色曲线标记机器人的路径(带有开始和结束标记),而彩色曲线追踪单个人类智能体。这说明了机器人如何在移动障碍物之间穿行。

图10描绘了实时安全评估:在(A)中,机器人的安全分数为0.46(许多附近的行人),它谨慎移动,而在(B)中,分数为0.96(较少附近的行人),机器人更直接地移动。这些定性地图强调所提出的方法在机器人周围保持更大的安全边距。

6.1 整体性能

所提出的方法实现了最高的成功率和最低的约束和接近违规,同时匹配或改善相对于基线的到达目标时间。表6总结了所提出方法的整体聚合指标。

相对于PPO,碰撞和约束违规下降约60%(0.05→0.02/回合),近距离率大约减半,最小间隙增加约0.15米,同时保持有竞争力的到达目标时间。

6.2 消融研究

表7隔离了预测、CBF屏蔽、时域和风险建模的贡献。移除预测或屏蔽会降低安全性和可靠性;缩短预测时域会适度影响性能;禁用风险意识会增加接近侵入。所有消融保持相同的基于Transformer的预测主干;预测器本身的系统变化(例如,基于图或基于GAN的模型,如Trajectron++和SocialGAN-RL)留作未来工作,由预测器和Safe-RL + CBF堆栈之间的模块化接口启用。

7. 讨论

结果表明,将基于Transformer的人体运动预测与Safe-RL策略和CBF屏蔽相结合,在不牺牲效率的情况下产生了有意义的安全收益。与ORCA、DWA和vanilla PPO相比,所提出的方法一致地提高成功率、增加最小间隙,并减少约束和接近违规(第6节)。消融研究(表3)将大部分收益归因于:(i) 来自预测的预见性信息——在门口和交叉流中至关重要——以及 (ii) 运行时CBF投影,它消除了大部分残余不安全动作,同时最小化扰动名义策略。鲁棒性分析进一步显示在增加的人群密度和注入的传感器-网络延迟下的稳定性能(表8),表明不确定性感知预测和延迟补偿安全检查是互补的。

尽管我们在本研究中使用的校准高斯混合预测器不提供共形预测的有限样本覆盖保证,但它提供了连续密度和协方差,这些自然地耦合到机会约束CBF构造和Safe-RL策略消耗的风险特征,所有这些都在20-30毫秒的控制预算内。多智能体轨迹的共形预测器通常会产生集值预测管,并需要额外的校准循环,并且在我们的嵌入式设置中将这些集映射到可微风险特征和实时CBF约束是非平凡的。出于这些原因,本研究采用轻量级参数预测器,具有显式事后校准。它认为共形化轨迹预测是针对更强理论不确定性保证的扩展的有前途方向。

7.1 机制和解释

预测提供短时域、不确定性校准的占用,策略使用它来预先调整速度和路径,从而避免基线方法中经常触发近距离的最后一秒规避。然后,CBF屏蔽在执行时提供正式安全;干预日志显示低激活率但高保护价值(图12)。重要的是,到达目标时间保持竞争力,因为干预是稀疏的且幅度小,因此效率主要由学习策略而不是保守的故障安全控制。

消融结果也阐明了特定设计选择的影响。缩短预测时域或禁用校准会增加屏蔽干预并产生更犹豫、停停走走的运动,而移除CVaR头(“风险盲”)尽管平均成功率相似,但导致近距离事件的更高率。保持CBF屏蔽模块化,而不是将其吸收到策略网络中,简化了验证和调试并保留了正式安全保证,代价是在密集交互中投影动作的一小部分。

7.2 对密度和延迟的鲁棒性

性能随行人密度和100-300毫秒的注入延迟优雅地降级(表9)。基线方法在这些条件下经历近距离事件的急剧上升。相比之下,由于预测感知风险特征和延迟感知CBF评估,所提出的方法保持较低的违规率。失败分析显示,大多数剩余错误来自突然的群体流动变化(即,预测漂移)和在紧密瓶颈附近CBF不可行的罕见情况;这两种效应都被减少但未被安全屏蔽消除。

7.3 实际影响和局限性

对于临床部署,更高的间隙和更少的近距离转化为改善的感知安全性和减少的工作人员负担。管道的模块化允许替换预测器或屏蔽以适应医院布局和计算预算。仍然存在四个局限性:

(i) 对可能暂时错误校准预测的急剧、集体流动逆转的敏感性;

(ii) 在极其狭窄的空间中偶尔的CBF不可行性;

(iii) 评估固定单个基于Transformer的预测主干,而不是基准测试替代预测器(例如,Trajectron++或SocialGAN-RL风格模型),因此预测器选择对闭环安全和效率的影响尚未量化;

(iv) 屏蔽引起轻微的分布转移,因为环境执行atsh而策略采样atπ。在实践中,这种转移由干预范数||δa_t||限制,在评估的区域中保持较小,但对这种离策略效应的完整理论处理仍然是未来工作的开放方向。

这些问题可以通过以下方式缓解:(a) 预测器的设备上在线校准,(b) 具有验证不变性的保守回退制动,© 操作员意图覆盖层,使边缘情况下的快速权限移交,以及 (d) 将多个预测主干集成到相同Safe-RL + CBF框架中的未来实验。

尽管仿真实例化了类似医院的走廊和四床病房,但这些布局和交通模式与许多LTC家庭中发现的非常相似,在那里远程呈现机器人越来越多地被探索以支持远程探访和护理伙伴参与。因此,我们期望这里学到的预见性行为转移到LTC设置,同时承认专门的现实世界LTC评估仍然是重要的下一步。

为了缓解"屏蔽近视",评论者以增强输入(s_t,δa_t,λ_t)为条件,以便价值估计取决于屏蔽干预的频率和强度,而对||δa_t||的正则化器鼓励行动者向低干预区域移动并在策略内内化安全。

7.4 未来方向

有前景的扩展包括基于世界模型的MPC,用于在部分可观察性下进行更长时域规划、由工作人员寻路策略通知的多智能体协调,以及使用真实医院交通的前瞻性试验以验证社会舒适度结果。另一个重要方向是在相同Safe-RL + CBF架构内系统比较不同的人体运动预测主干(例如,类似Trajectron++、SocialGAN-RL和基于扩散的人群预测器),以表征预测模型选择如何在临床布局中权衡安全边距、效率和计算负载。与用于操作员意图的共享自主覆盖层的集成可能进一步减少罕见的停滞而不损害安全。

8. 结论

本研究提出了一个集成的预测→策略→安全过滤器管道,其中基于Transformer的人体运动预测增强风险感知Safe-RL策略,而离散时间CBF屏蔽为医院病房中的远程呈现协同导航强制执行运行时安全。该公式明确解决部分可观察性、动态人类流动和感知/网络延迟,通过短时域、不确定性校准的占用特征和延迟补偿安全投影操作化预见性感知——正是先前工作中确定的差距,在那里感知、学习和正式安全很少为临床环境中的TPRs融合。

定量地,该方法优于三个强基线(ORCA、DWA和PPO)。相对于PPO,约束违规下降60.0%(0.05→0.02每回合),接近违规下降38.7%(0.31→0.19),近距离率下降39.5%(4.3%→2.6%的步数≤0.3 m),而到达目标时间改善2.8%(10.8→10.5秒)。成功率增加7.6个百分点(90.4%→98.0%),最小间隙增加0.15米(0.51→0.66米)。相对于ORCA,改进更大(例如,约束违规减少83.3%,近距离率降低69.0%,到达目标时间快13.2%)。

这些结果确认,预见性预测与认证安全层相结合,在不牺牲效率的情况下实质性地增强了安全性——解决了可靠、人类兼容远程呈现移动性的核心临床要求。

消融证据阐明了收益机制。移除预测使成功率降低5.9个百分点,约束违规增加150%,接近违规增加78.9%;关闭CBF屏蔽使成功率降低7.8个百分点,约束违规增加450%,接近违规增加115.8%。缩短预测时域使约束违规翻倍,接近侵入增加36.8%,强调短时域预期的价值。

敏感性分析显示在拥挤和延迟下的优雅降级:在300毫秒注入延迟下,该方法仍然实现94.0%的成功率,而PPO为82.7%,DWA为80.0%,一致地具有更大的间隙。

与现有研究相比,这些研究专注于反应式社会导航、仅学习策略或仅控制证书,所提出的集成通过联合利用(i) 用于预期的Transformer预测,(ii) 用于适应性的Safe-RL,以及 (iii) 用于人员密集临床布局中正式运行时保证的CBF屏蔽,明显地关闭了已识别的研究差距。

在实践中,这些收益转化为更少的近距离、更大的舒适距离和维持的吞吐量——可以减少工作人员负担并提高病房接受度的好处。未来工作可以通过适应设备上的预测器以缓解突然流动逆转期间的罕见预测漂移、为紧密瓶颈实施保守、验证的回退,以及提供用于快速权限移交的操作员意图覆盖层来扩展这一基础。更长时域的世界模型-MPC和实际医院工作流程中的前瞻性研究是将展示的约39-83%安全减少(取决于基线和指标)和约3-13%效率收益转化为持续临床影响的自然下一步。

总的来说,这些发现表明,基于Transformer的预测、Safe-RL和CBF屏蔽形成了人员密集临床布局中预见性、安全约束导航的可行架构模板。尽管结果是在仿真基准中获得的,但它们揭示了设计原则——短时域预测、显式不确定性处理和模块化安全层——可以指导医院和LTC病房中远程呈现系统的未来部署。更广泛地说,本研究说明了预测感知共享自主如何帮助弥合高性能基于学习的导航与医疗保健环境的严格安全和可接受性要求之间的差距。


五问五答

问题1:本研究的核心创新点是什么?它如何解决现有远程呈现机器人导航的主要挑战?

答案:

本研究的核心创新在于提出了一个三层集成框架,将预见性感知、安全强化学习和形式化安全保证有机结合,专门针对医院等人员密集环境中的远程呈现机器人(TPR)导航问题。

三个关键创新点:

  1. 基于Transformer的人体运动预测层:采用轻量级Transformer架构预测短时域(0.8-1.6秒)内多个行人的轨迹分布。该预测器能够:

    • 在遮挡条件下建模多智能体交互
    • 输出不确定性校准的高斯混合模型
    • 将预测转化为紧凑的风险占用特征(最大占用强度、近场概率质量、预测最小间隙)
  2. 安全强化学习(Safe-RL)控制器:将导航问题表述为约束马尔可夫决策过程(CMDP),具有:

    • 风险敏感的CVaR(条件风险价值)目标函数
    • 明确的安全预算约束(碰撞率、近距离事件率)
    • 拉格朗日乘数自适应调整以平衡性能与安全
  3. 离散时间控制屏障函数(CBF)安全屏蔽:在执行层通过二次规划(QP)实时过滤不安全动作:

    • 结合静态障碍物(墙壁、设备)和动态人类的安全约束
    • 使用机会鲁棒约束处理预测不确定性
    • 延迟感知状态预测补偿感知和网络延迟(100-300ms)

解决的主要挑战:

  • 部分可观察性与遮挡:Transformer预测器通过注意力机制和可见性掩码处理窗帘、家具造成的遮挡
  • 动态人群与突发性:短时域预测使机器人能预先调整路径,避免最后一秒的紧急规避
  • 安全与效率权衡:CBF屏蔽保证硬安全约束,同时最小化对学习策略的扰动(干预稀疏且幅度小)
  • 延迟补偿:所有安全评估在预测状态x̂_{t+Δ}进行,预先防止延迟引起的违规
  • 模块化与可验证性:三层架构允许独立验证和替换组件(例如更换预测器或调整CBF参数)

量化改进:
相对于最佳基线(PPO),该方法实现:

  • 约束违规↓60%(0.05→0.02/回合)
  • 近距离事件↓39.5%(4.3%→2.6%步数)
  • 最小间隙↑0.15米(0.51→0.66米)
  • 成功率↑7.6个百分点(90.4%→98.0%)
  • 到达目标时间仅↑2.8%(保持效率)

这种集成方法填补了文献中的关键空白:现有工作要么专注于预测(但缺乏安全保证),要么专注于Safe-RL(但不利用预见性信息),要么使用CBF(但基于反应式感知)。本研究首次在医院场景中将三者紧密耦合并进行系统评估。


问题2:Transformer预测器的具体架构设计是什么?它如何处理遮挡和不确定性校准?

答案:

Transformer预测器架构:

该研究采用轻量级、延迟感知的Transformer,专门针对嵌入式TPR平台的实时约束(<10ms推理时间)进行优化。具体设计包括:

1. 输入表示(多模态标记化):

  • 智能体时间标记:每个行人的历史轨迹窗口{y_{t-ℓ:t}^i}(ℓ=8-12步,约0.8-1.2秒)编码为时间序列标记
  • 地图上下文标记:局部地图补丁的SDF(签名距离场)和可见性掩码V_t,捕获墙壁、门、床、窗帘等几何约束
  • 智能体中心特征:成对位移向量和占用栅格,以机器人为参考系归一化
  • 遮挡掩码:二进制掩码标记被遮挡的智能体(不在可见性区域V_t内),允许模型区分"未检测到"与"不存在"

2. 编码器(社交交互建模):

  • 多头自注意力(2-4层,4-8个头):在智能体标记上计算注意力权重,捕获行人间的隐式协调和避让行为
  • 稀疏邻域注意力:为降低复杂度从O((Nℓ)²)到O(Nℓk)(k≪Nℓ),仅对空间邻近的智能体计算注意力
  • 层归一化与残差连接:稳定训练并支持更深层次

3. 交叉注意力(环境感知):

  • 智能体标记作为查询(Query),地图标记作为键(Key)和值(Value)
  • 使模型学习"行人如何响应门口、瓶颈、床位等环境特征"
  • 例如:预测行人在门口减速或绕过床位

4. 解码器(非自回归预测):

  • 并行输出:同时预测H步(H=8-16,对应0.8-1.6秒),避免自回归误差累积
  • 每步独立头:每个时间步τ∈[1,H]有独立的输出头,预测该时刻的位置分布

5. 输出层(多模态分布):

  • 高斯混合模型(GMM):每个智能体i在每步τ输出K=3-5个高斯分量
  • 参数:{π_{ik}(混合权重),μ_{ik}(τ)(均值位置),Σ_{ik}(τ)(协方差矩阵)}
  • 捕获多模态性(例如,行人可能左转或右转)

遮挡处理机制:

  1. 显式可见性建模

    • 可见性区域V_t由LiDAR和RGB-D的视野(FOV)及射线投射确定
    • 被遮挡的智能体标记接收二进制掩码,注意力机制中对应权重降低或置零
  2. 协方差膨胀

    • 对于最近被遮挡的智能体(例如刚消失在窗帘后),预测协方差Σ_{ik}自动增大
    • 反映"我不确定这个人现在在哪"的认知不确定性
  3. 轨迹延续

    • 使用恒速卡尔曼滤波器维护缺失≤M帧(M=3-5)的轨迹,协方差随时间增长
    • 超过M帧则丢弃轨迹,避免幻觉预测

不确定性校准(关键创新):

原始神经网络输出的协方差往往过度自信(低估真实误差),本研究采用两步校准:

  1. 温度缩放(Temperature Scaling)

    • 对预测方差Σ_{ik}乘以标量因子T>1
    • T在验证集上通过最大化校准似然确定
    • 效果:扩大不确定性区间,使预测更保守
  2. 分位数匹配(Quantile-Matched Scaling)

    • 计算马氏距离d_M = (y_{真实} - μ_{ik})^T Σ_{ik}^{-1} (y_{真实} - μ_{ik})
    • 在校准集上统计d_M的经验分位数
    • 调整Σ_{ik}使理论χ²分布与经验分位数对齐
    • 例如:如果95%分位数的经验d_M大于理论值,则放大Σ_{ik}
  3. 方差下限约束

    • 强制Σ_{ik}的最小特征值≥σ²_min(例如0.01 m²)
    • 防止协方差崩溃到数值不稳定的极小值

校准效果验证(图11):

  • 研究绘制可靠性图:预测近距离风险概率 vs. 实际近距离频率
  • 所提出方法的曲线紧贴对角线(完美校准),而PPO和DWA偏离对角线
  • 表明校准后的不确定性估计是可信的,支持下游CBF的机会约束

与机会鲁棒CBF的耦合:
校准后的协方差Σ_{ik}直接用于构造安全约束:
hi,τ(pt):=∥pt−μik∥2−κ1−ϵλmax⁡(Σik)−Rsafe≥0h_{i,\tau}(p_t) := \|p_t - \mu_{ik}\|^2 - \kappa_{1-\epsilon} \lambda_{\max}(\Sigma_{ik}) - R_{\text{safe}} \geq 0hi,τ(pt):=ptμik2κ1ϵλmax(Σik)Rsafe0

其中κ_{1-ε}是高分位数因子(例如ε=0.05时κ≈1.96),λ_max(Σ_{ik})是协方差最大特征值。这确保机器人与预测位置保持的间隙能以1-ε的概率覆盖真实人类位置。

计算效率:

  • 稀疏注意力+浅层设计:推理时间<10ms(嵌入式GPU)
  • 非自回归解码:避免H次串行前向传播
  • 满足30-50 Hz控制频率要求

总结:
该Transformer预测器通过显式遮挡掩码、协方差膨胀和事后校准,将"不知道"(认知不确定性)与"不确定"(偶然不确定性)区分开来,为下游Safe-RL和CBF提供了可靠的概率信念状态,这是实现预见性安全导航的关键。


问题3:Safe-RL控制器如何平衡任务效率与安全约束?拉格朗日方法的具体实现是什么?

答案:

Safe-RL控制器的核心挑战是在最大化任务性能(快速到达目标、路径平滑)与满足硬安全约束(零碰撞、保持舒适距离)之间找到平衡。本研究通过约束马尔可夫决策过程(CMDP)+ 拉格朗日松弛 + CVaR风险敏感目标的组合实现这一目标。

CMDP形式化:

标准RL最大化累积奖励E[∑_t r_t],但Safe-RL需要同时满足约束:
min⁡πE[∑t=0T−1c(xt,ut;Yt)]\min_\pi \mathbb{E}\left[\sum_{t=0}^{T-1} c(x_t, u_t; Y_t)\right]πminE[t=0T1c(xt,ut;Yt)]
s.t. E[∑t=0T−1I{gj(xt,ut;Yt)>0}]≤κj,∀j\text{s.t. } \mathbb{E}\left[\sum_{t=0}^{T-1} \mathbb{I}\{g_j(x_t, u_t; Y_t) > 0\}\right] \leq \kappa_j, \quad \forall js.t. E[t=0T1I{gj(xt,ut;Yt)>0}]κj,j

其中:

  • 成本函数c:结合进度成本c_prog(距离目标)、平滑度成本c_sm(加速度和角速度的平方)、社会舒适成本c_soc(接近人类的惩罚)
  • 约束函数g_j
    • g_1:人机距离<R_safe(碰撞约束)
    • g_2:机器人距墙<R_wall(静态障碍物约束)
    • g_3:近距离事件(0.2m < 距离 ≤ 0.3m)
  • 安全预算κ_j:允许的约束违规期望次数(例如κ_1=0.02表示每回合平均≤2%的步数可违规)

拉格朗日松弛(Lagrangian Relaxation):

直接优化CMDP在计算上困难(约束是期望,难以在线评估)。拉格朗日方法将约束转化为惩罚项:

  1. 增广目标函数
    L(π,λ)=Eπ[∑t(c(xt,ut;Yt)+∑jλjI{gj>0})]\mathcal{L}(\pi, \lambda) = \mathbb{E}_\pi\left[\sum_t \left(c(x_t, u_t; Y_t) + \sum_j \lambda_j \mathbb{I}\{g_j > 0\}\right)\right]L(π,λ)=Eπ[t(c(xt,ut;Yt)+jλjI{gj>0})]

其中λ_j≥0是拉格朗日乘数(也称对偶变量),表示违反约束j的"价格"。

  1. 原始-对偶优化

    • 原始步骤(策略更新):固定λ,优化策略π以最小化L(π, λ)
      • 使用PPO算法更新行动者-评论者网络
      • 裁剪的代理目标防止策略更新过大
    • 对偶步骤(乘数更新):固定π,调整λ以"惩罚"违规
      λj(k+1)=clip(λj(k)+αλ(C^j−κj),0,λmax⁡)\lambda_j^{(k+1)} = \text{clip}\left(\lambda_j^{(k)} + \alpha_\lambda \left(\hat{C}_j - \kappa_j\right), 0, \lambda_{\max}\right)λj(k+1)=clip(λj(k)+αλ(C^jκj),0,λmax)
      其中Ĉ_j是约束成本的经验估计(例如,最近N回合的平均违规率)
  2. 自适应惩罚

    • 如果Ĉ_j > κ_j(违规过多),λ_j↑,策略受到更强惩罚,被迫更保守
    • 如果Ĉ_j < κ_j(过于保守),λ_j↓,策略可以更激进以提高效率
    • 裁剪到[0, λ_max]防止数值不稳定

CVaR风险敏感目标(尾部风险规避):

除了期望成本,还引入**条件风险价值(CVaR)**头来塑造策略规避最坏情况:

CVaRα(Z)=min⁡η{η+11−αE[(Z−η)+]}\text{CVaR}_\alpha(Z) = \min_\eta \left\{\eta + \frac{1}{1-\alpha} \mathbb{E}[(Z - \eta)^+]\right\}CVaRα(Z)=ηmin{η+1α1E[(Zη)+]}

其中:

  • Z = ∑_t c_t是回合累积成本
  • α∈(0,1)是置信水平(例如α=0.95)
  • η是辅助变量(VaR阈值)
  • CVaR_α(Z)表示"最坏的(1-α)尾部的平均成本"

实现方式

  • 评论者网络增加一个CVaR头,输出η和尾部风险估计
  • 行动者梯度同时考虑期望回报和CVaR惩罚
  • 效果:策略倾向于避免"虽然平均表现好,但偶尔会严重失败"的动作

具体实现细节:

1. 状态表示(增强观测s_t):
st=[xt,  pgoal−pt,  ψ(pt),  ϱt,  ξt]s_t = [x_t, \; p_{\text{goal}} - p_t, \; \psi(p_t), \; \varrho_t, \; \xi_t]st=[xt,pgoalpt,ψ(pt),ϱt,ξt]

  • x_t:机器人状态(位置、偏航角、速度)
  • p_goal - p_t:到目标的相对向量
  • ψ(p_t):地图SDF特征(到最近墙壁的距离和梯度)
  • ϱ_t:预测风险特征(最大占用、近场质量、预测最小间隙)
  • ξ_t:延迟特征(Δ_sens, Δ_net)

2. 策略网络(行动者):

  • 输入:s_t(维度~20-30)
  • 架构:2-3层MLP,隐藏层256-512单元,LayerNorm + Tanh激活
  • 输出:高斯分布参数
    • 均值μ_π(s_t)∈ℝ²(加速度a_t,角速度ω_t)
    • 对数标准差log σ_π(s_t),有下界防止退化
  • 采样:u_t ~ N(μ_π, diag(σ²_π)),然后通过tanh压缩到[u_min, u_max]

3. 价值网络(评论者):

  • 输入:扩展状态(s_t, δa_t, λ_t)
    • δa_t = a_t^{sh} - a_t^π:屏蔽干预向量
    • λ_t:CBF-QP的对偶变量
  • 输出:
    • V(s_t):状态价值(期望累积回报)
    • V_CVaR(s_t):CVaR价值头
  • 作用:通过观察屏蔽活动,评论者学习"在这个状态下,如果屏蔽频繁干预,未来回报会降低"

4. PPO更新(原始步骤):

  • 收集N步轨迹(使用屏蔽后的动作a_t^{sh})
  • 计算优势函数Â_t = R_t - V(s_t)(使用GAE,λ=0.95)
  • 裁剪代理目标:
    LCLIP(θ)=Et[min⁡(rt(θ)A^t,  clip(rt(θ),1−ϵ,1+ϵ)A^t)]L^{\text{CLIP}}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_t, \; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]LCLIP(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)]
    其中r_t(θ) = π_θ(a_t^π|s_t) / π_{θ_{\text{old}}}(a_t^π|s_t)是重要性比率
  • 熵正则化:L_total = L_CLIP - β_H H(π),鼓励探索

5. 约束成本估计:
在每个更新周期,统计:

  • Ĉ_1:碰撞步数 / 总步数
  • Ĉ_2:CBF松弛激活次数 / 总步数
  • Ĉ_3:近距离事件步数 / 总步数

6. 对偶更新:
对每个约束j:
λj←clip(λj+αλ(C^j−κj),0,λmax⁡)\lambda_j \leftarrow \text{clip}\left(\lambda_j + \alpha_\lambda (\hat{C}_j - \kappa_j), 0, \lambda_{\max}\right)λjclip(λj+αλ(C^jκj),0,λmax)

  • α_λ:对偶学习率(例如0.01)
  • λ_max:上界(例如100),防止惩罚过大导致策略退化

7. 奖励塑造(实际使用的r_t):
rt=ηprog(dt−1−dt)−βsm(at2+ωt2)−δsoc∑iϕ(∥pt−yti∥)−∑jλjI{gj>0}+rterminalr_t = \eta_{\text{prog}}(d_{t-1} - d_t) - \beta_{\text{sm}}(a_t^2 + \omega_t^2) - \delta_{\text{soc}}\sum_i \phi(\|p_t - y_t^i\|) - \sum_j \lambda_j \mathbb{I}\{g_j > 0\} + r_{\text{terminal}}rt=ηprog(dt1dt)βsm(at2+ωt2)δsociϕ(ptyti)jλjI{gj>0}+rterminal

其中:

  • 进度奖励:接近目标获得正奖励
  • 平滑度惩罚:大加速度/角速度扣分
  • 社会舒适惩罚:φ® = max(0, R_comfort - r)²(铰链二次函数)
  • 拉格朗日惩罚:违反约束时扣λ_j分
  • 终端奖励:到达目标+100,碰撞-100

防止"屏蔽近视"的设计:

问题:如果策略只在屏蔽后的环境中学习,可能学会"依赖屏蔽"而不内化安全。

解决方案:

  1. 评论者观察屏蔽活动:输入包含(δa_t, λ_t),使价值估计反映"这个状态需要多少屏蔽干预"
  2. 干预正则化:在奖励中添加-γ_int ||δa_t||²,鼓励策略选择不需要屏蔽修正的动作
  3. 渐进式屏蔽强度:训练早期使用较松的CBF参数(大γ),后期收紧,迫使策略逐步内化安全

训练超参数(表4):

  • 折扣因子γ_disc = 0.99
  • GAE参数λ = 0.95
  • PPO裁剪ε = 0.2
  • 熵系数β_H = 0.001-0.01(随训练衰减)
  • 对偶学习率α_λ = 0.01
  • 批量大小:2048步
  • 每批更新轮数:3-10 epochs
  • 优化器:Adam,学习率3e-4

收敛行为(图8):

  • 前1000回合:成功率快速上升(探索阶段),碰撞率高
  • 1000-5000回合:λ_j逐渐增大,策略变保守,碰撞率下降
  • 5000回合后:成功率稳定在98%,碰撞率<2%,λ_j收敛

总结:
拉格朗日Safe-RL通过自适应惩罚权重实现效率与安全的动态平衡:当违规时自动提高安全优先级,当过于保守时放松约束。CVaR目标进一步确保策略不仅平均表现好,而且尾部风险低。结合CBF屏蔽的在线保护,系统在学习过程中始终保持可接受的安全水平。


问题4:CBF安全屏蔽的数学原理是什么?它如何处理预测不确定性和系统延迟?

答案:

控制屏障函数(CBF)安全屏蔽是本研究的形式化安全保证核心,它在执行层通过实时优化确保机器人动作满足安全约束,即使学习策略偶尔提出不安全的命令。

CBF基本原理:

1. 安全集定义:
定义安全集S为所有满足安全条件的状态集合:
S={x∈Rn:h(x)≥0}S = \{x \in \mathbb{R}^n : h(x) \geq 0\}S={xRn:h(x)0}

其中h(x)是屏障函数(barrier function),例如:

  • 墙壁安全:h_wall(x) = d_O§ - R_wall(到墙的距离 - 安全半径)
  • 人类安全:h_human(x) = ||p - y^i||² - R²_safe(到行人i的距离平方 - 安全距离平方)

当h(x) ≥ 0时,状态x是安全的;h(x) = 0是安全边界;h(x) < 0表示违规。

2. 前向不变性条件:
CBF的核心思想是:如果当前状态安全(h(x_t) ≥ 0),则选择控制u_t使得下一状态仍然安全(h(x_{t+1}) ≥ 0)。

对于连续时间系统ẋ = f(x, u),CBF条件为:
h˙(x,u)+γh(x)≥0\dot{h}(x, u) + \gamma h(x) \geq 0h˙(x,u)+γh(x)0

其中γ > 0是衰减参数。这保证h(x)不会快速减小(即使允许缓慢衰减)。

3. 离散时间CBF(本研究使用):
对于离散动力学x_{t+1} = x_t + Δt f(x_t, u_t),条件变为:
h(xt+1)−(1−γ)h(xt)≥0h(x_{t+1}) - (1 - \gamma) h(x_t) \geq 0h(xt+1)(1γ)h(xt)0

即:下一步的h值≥当前h值的(1-γ)倍。例如γ=0.1时,允许h每步最多衰减10%。

线性化为QP约束:

使用一阶泰勒展开:
h(xt+1)≈h(xt)+∇xh(xt)⊤(xt+1−xt)h(x_{t+1}) \approx h(x_t) + \nabla_x h(x_t)^\top (x_{t+1} - x_t)h(xt+1)h(xt)+xh(xt)(xt+1xt)
=h(xt)+Δt∇xh(xt)⊤f(xt,ut)= h(x_t) + \Delta t \nabla_x h(x_t)^\top f(x_t, u_t)=h(xt)+Δtxh(xt)f(xt,ut)

代入CBF条件并整理,得到关于u_t的线性不等式
Ah(xt)ut≤bh(xt)A_h(x_t) u_t \leq b_h(x_t)Ah(xt)utbh(xt)

其中:
Ah=−Δt∇xh(xt)⊤∂f∂u(xt)A_h = -\Delta t \nabla_x h(x_t)^\top \frac{\partial f}{\partial u}(x_t)Ah=Δtxh(xt)uf(xt)
bh=h(xt)−Δt∇xh(xt)⊤f(xt,0)−(1−γ)h(xt)b_h = h(x_t) - \Delta t \nabla_x h(x_t)^\top f(x_t, 0) - (1 - \gamma) h(x_t)bh=h(xt)Δtxh(xt)f(xt,0)(1γ)h(xt)

处理预测不确定性(机会鲁棒CBF):

问题:预测的行人位置是概率分布Y_{t+τ}^i ~ N(μ_{ik}, Σ_{ik}),而不是确定值。如何构造安全约束?

解决方案:机会约束(Chance Constraint)
要求机器人与行人保持安全距离的概率≥ 1-ε:
P(∥pt−Yt+τi∥2≥Rsafe2)≥1−ϵ\mathbb{P}\left(\|p_t - Y_{t+\tau}^i\|^2 \geq R^2_{\text{safe}}\right) \geq 1 - \epsilonP(ptYt+τi2Rsafe2)1ϵ

保守近似(单侧Chebyshev不等式):
对于高斯分布Y ~ N(μ, Σ),可以构造确定性约束:
∥pt−μ∥2−κ1−ϵλmax⁡(Σ)≥Rsafe2\|p_t - \mu\|^2 - \kappa_{1-\epsilon} \lambda_{\max}(\Sigma) \geq R^2_{\text{safe}}ptμ2κ1ϵλmax(Σ)Rsafe2

其中:

  • κ_{1-ε} = Φ^{-1}(1-ε)是标准正态分位数(例如ε=0.05时κ≈1.96)
  • λ_max(Σ)是协方差矩阵的最大特征值(不确定性最大的方向)

物理解释

  • ||p_t - μ||²:机器人到预测均值位置的距离平方
  • κ_{1-ε} λ_max(Σ):不确定性边距(预测越不确定,边距越大)
  • 总和≥ R²_safe:确保即使人类实际位置偏离预测均值,仍以高概率保持安全

平方形式CBF(用于梯度计算):
定义:
h~i,τ(pt):=(∥pt−μ∥2−κ1−ϵλmax⁡(Σ))2−Rsafe4\tilde{h}_{i,\tau}(p_t) := \left(\|p_t - \mu\|^2 - \kappa_{1-\epsilon} \lambda_{\max}(\Sigma)\right)^2 - R^4_{\text{safe}}h~i,τ(pt):=(ptμ2κ1ϵλmax(Σ))2Rsafe4

梯度:
∇ph~=2(∥pt−μ∥2−δ)pt−μ∥pt−μ∥2\nabla_p \tilde{h} = 2\left(\|p_t - \mu\|^2 - \delta\right) \frac{p_t - \mu}{\|p_t - \mu\|^2}ph~=2(ptμ2δ)ptμ2ptμ

其中δ = κ_{1-ε} λ_max(Σ)。

多时域、多智能体CBF:
对预测时域内每个行人i、每个时间步τ构造一个CBF:
h~i,τ(pt)≥0,i=1,…,Nt,τ=1,…,H\tilde{h}_{i,\tau}(p_t) \geq 0, \quad i = 1, \ldots, N_t, \quad \tau = 1, \ldots, Hh~i,τ(pt)0,i=1,,Nt,τ=1,,H

动态安全集:
Sdyn(t)=⋂i,τ{x:h~i,τ(pt)≥0}S_{\text{dyn}}(t) = \bigcap_{i,\tau} \{x : \tilde{h}_{i,\tau}(p_t) \geq 0\}Sdyn(t)=i,τ{x:h~i,τ(pt)0}

总安全集:
S(t)=Sstat∩Sdyn(t)S(t) = S_{\text{stat}} \cap S_{\text{dyn}}(t)S(t)=SstatSdyn(t)

(静态墙壁安全 ∩ 动态人类安全)

处理系统延迟(延迟感知CBF):

问题

  • 感知延迟Δ_sens:从传感器采集到处理完成的时间(例如50ms)
  • 网络延迟Δ_net:远程操作时的通信延迟(例如100-300ms)
  • 总延迟Δ = Δ_sens + Δ_net

控制命令u_t实际作用于未来状态x_{t+Δ},而不是当前x_t。如果在x_t评估CBF,可能在x_{t+Δ}时已违规!

解决方案:预测状态评估

  1. 状态预测
    使用恒速模型预测Δ时间后的状态:
    x^t+Δ=xt+Δf(xt,ut−1)\hat{x}_{t+\Delta} = x_t + \Delta f(x_t, u_{t-1})x^t+Δ=xt+Δf(xt,ut1)
    p^t+Δ=pt+Δvt[cos⁡θt,sin⁡θt]⊤\hat{p}_{t+\Delta} = p_t + \Delta v_t [\cos\theta_t, \sin\theta_t]^\topp^t+Δ=pt+Δvt[cosθt,sinθt]

  2. 在预测状态评估CBF
    所有屏障函数h和约束A_t u_t ≤ b_t在x̂_{t+Δ}处计算,而不是x_t。

  3. 预测人类位置也前移
    使用预测器输出的μ_{ik}(τ=Δ/Δt)和Σ_{ik}(τ=Δ/Δt)。

效果

  • 预先补偿延迟,使CBF约束在实际执行时刻生效
  • 鲁棒性分析(表8)显示,即使在300ms延迟下,成功率仍达94%(vs. PPO的82.7%)

QP安全屏蔽(实时优化):

给定Safe-RL策略输出的名义动作u_t^{nom},屏蔽求解:
ut∗=arg⁡min⁡u∈R2∥u−utnom∥22u_t^* = \arg\min_{u \in \mathbb{R}^2} \|u - u_t^{\text{nom}}\|_2^2ut=arguR2minuutnom22
s.t. At(x^t+Δ)u≤bt(x^t+Δ)\text{s.t. } A_t(\hat{x}_{t+\Delta}) u \leq b_t(\hat{x}_{t+\Delta})s.t. At(x^t+Δ)ubt(x^t+Δ)
umin⁡≤u≤umax⁡u_{\min} \leq u \leq u_{\max}uminuumax

其中A_t, b_t堆叠所有活动CBF约束(墙壁 + 所有可见行人的所有时域)。

QP性质

  • 最小扰动:在所有满足安全约束的动作中,选择最接近u_t^{nom}的
  • 凸优化:2个决策变量(a_t, ω_t),m个线性约束,O(m)复杂度
  • 实时可解:活动集方法,典型求解时间<0.3ms

松弛变量(处理不可行性)
在极端情况下(例如机器人已经太接近人类),QP可能无解。引入松弛变量s_j≥0:
Atu≤bt+sA_t u \leq b_t + sAtubt+s
min⁡∥u−utnom∥2+ρ∑jsj2\min \|u - u_t^{\text{nom}}\|^2 + \rho \sum_j s_j^2minuutnom2+ρjsj2

其中ρ≫1(例如10⁴)是大惩罚。松弛激活被记录为约束违规。

屏蔽诊断(用于Safe-RL学习)

QP返回:

  • u_t^*:屏蔽后的安全动作
  • λ_t∈ℝ^m_≥0:拉格朗日乘数向量(每个约束的"紧张度")
  • s_t:松弛变量(违规程度)

定义干预向量:
δat=ut∗−utnom\delta a_t = u_t^* - u_t^{\text{nom}}δat=ututnom

馈送到Safe-RL

  • 评论者输入(s_t, δa_t, λ_t),学习"哪些状态需要强屏蔽干预"
  • 约束成本Ĉ_j包括:
    • CBF松弛激活率:||s_t|| > 0的步数比例
    • 屏蔽干预率:||δa_t|| > 阈值的步数比例
  • 拉格朗日乘数根据Ĉ_j调整,形成闭环

CBF参数调优:

衰减因子γ

  • γ小(例如0.1):允许h快速衰减,屏蔽较宽松,可能在紧急情况下反应不及
  • γ大(例如0.5):要求h几乎不衰减,屏蔽非常保守,可能过度限制策略
  • 本研究:γ ∈ [0.1, 0.3],根据场景调整

安全半径R_safe
Rsafe=Rcomfort+rrob+rhum+rbufR_{\text{safe}} = R_{\text{comfort}} + r_{\text{rob}} + r_{\text{hum}} + r_{\text{buf}}Rsafe=Rcomfort+rrob+rhum+rbuf

  • R_comfort:社会舒适距离(例如0.5m)
  • r_rob, r_hum:机器人和人类的物理半径(各0.2m)
  • r_buf:额外鲁棒性缓冲(例如0.1m)
  • 总计:R_safe ≈ 1.0m

机会约束置信水平ε

  • ε小(例如0.01):要求99%概率安全,屏蔽非常保守
  • ε大(例如0.1):允许10%概率违规,屏蔽较宽松
  • 本研究:ε = 0.05(95%置信度),平衡安全与效率

实验验证(表6-7):

消融"无屏蔽"

  • 成功率:98.0% → 90.2%(↓7.8个百分点)
  • 约束违规:0.020 → 0.110/回合(↑450%)
  • 接近违规:0.19 → 0.41/回合(↑115.8%)

证明CBF屏蔽是安全性的关键贡献者。

屏蔽干预统计(图12)

  • 干预率:训练初期~15%步数,收敛后<5%
  • 平均干预幅度:||δa_t|| ≈ 0.1 m/s²(小扰动)
  • 表明策略逐渐内化安全,减少对屏蔽的依赖

理论保证(第4.5节):

定理(前向不变性)
如果对所有活动CBF h,线性化约束A_t u_t ≤ b_t成立,则安全集S(t)在闭环动力学下前向不变,即:
xt∈S(t)⇒xt+1∈S(t+1)x_t \in S(t) \Rightarrow x_{t+1} \in S(t+1)xtS(t)xt+1S(t+1)

定理(有界干预)
QP解u_t*是u_t{nom}到可行集的欧几里得投影,因此:
∥ut∗−utnom∥2≤min⁡u∈Feasible∥u−utnom∥2\|u_t^* - u_t^{\text{nom}}\|_2 \leq \min_{u \in \text{Feasible}} \|u - u_t^{\text{nom}}\|_2ututnom2uFeasibleminuutnom2

即:屏蔽是最小必要修正。

定理(延迟鲁棒性)
对于有界预测误差||x̂_{t+Δ} - x_{t+Δ}|| ≤ ε_pred和Lipschitz CBF,可行性边距线性依赖于Δ和ε_pred。

总结:
CBF安全屏蔽通过机会鲁棒约束处理预测不确定性(扩大安全边距),通过延迟感知状态预测处理系统延迟(前移评估时刻),通过实时QP优化确保每步动作满足安全约束。它与Safe-RL形成互补:Safe-RL学习高性能策略,CBF提供最后一道防线。实验表明,这种分层设计在保持效率的同时实现了接近零的碰撞率。


问题5:本研究的实验设计有哪些亮点?如何确保评估的全面性和公平性?未来研究方向是什么?

答案:

本研究的实验设计在场景真实性、基线多样性、指标全面性和消融系统性方面具有显著亮点,确保了评估的科学严谨性和临床相关性。

实验设计亮点:

1. 临床驱动的场景设计:

医院病房布局(图2)

  • 四床病房:模拟真实医院多床病房,包含:
    • 4张病床(矩形障碍物,带窗帘遮挡)
    • 墙壁、门、医疗设备(推车、监护仪)
    • 狭窄走廊(宽度1.5-2米,符合医院标准)
  • 动态人群
    • 医护人员(目标导向运动,速度0.8-1.2 m/s)
    • 患者(辅助行走,速度0.3-0.6 m/s,可能使用助行器或轮椅)
    • 访客(随机漫游,速度0.5-0.9 m/s)
    • 使用ORCA模型生成自然避让行为
  • 遮挡模拟
    • 窗帘、设备、其他人体造成的视线阻挡
    • LiDAR视野270°,RGB-D视野60°,射线投射计算可见性区域V_t
    • 真实反映医院环境的部分可观察性

任务设置

  • 起点:病房入口(模拟机器人进入病房)
  • 目标:特定床位旁(模拟医生远程查房或家属视频探视)
  • 约束:避免碰撞床、墙、人;保持社会舒适距离
  • 超时:60秒(鼓励高效导航)

密度变化

  • 低密度:2-4人/场景(夜班)
  • 中密度:5-8人/场景(日常)
  • 高密度:9-12人/场景(换班高峰)

2. 多样化基线对比:

研究对比了四类导航方法,覆盖不同技术路线:

i. ORCA(反应式多智能体)

  • 代表:经典几何方法
  • 特点:无学习、无预测、纯局部避障
  • 优势:计算快、理论保证(无碰撞假设下)
  • 劣势:在密集人群中易陷入振荡、不考虑社会规范

ii. DWA(经典ROS导航栈)

  • 代表:工业界广泛使用的方法
  • 组件:全局A*规划器 + 局部DWA速度选择
  • 特点:基于占用网格、瞬时传感器数据
  • 优势:成熟稳定、易于部署
  • 劣势:缺乏预见性、对动态障碍物反应滞后

iii. PPO(纯学习方法)

  • 代表:最新深度强化学习
  • 特点:端到端学习、无显式安全层
  • 优势:可学习复杂策略、适应性强
  • 劣势:安全性依赖训练数据、泛化性存疑

iv. 所提出方法(Transformer + Safe-RL + CBF)

  • 集成预测、学习、形式化安全
  • 本研究的核心贡献

公平性保证

  • 所有方法使用相同传感器配置(LiDAR + RGB-D)
  • 相同动力学约束(最大加速度、角速度)
  • 相同计算预算(30-50 Hz控制频率)
  • PPO使用相同状态表示(除了预测风险特征ϱ_t)
  • 所有学习方法训练相同回合数(10,000回合)

3. 全面的评估指标体系:

研究设计了六大类指标,从多维度评估性能:

安全性指标

  • 碰撞率:物理接触(d_hr < 0.2m)的回合比例
  • 约束违规率:违反安全约束的步数比例
  • 最小间隙:回合中最小人机距离(越大越安全)
  • 近距离率:0.2m < d_hr ≤ 0.3m的步数百分比(量化"惊险时刻")
  • 接近违规:d_hr < 0.5m(进入个人空间)的步数比例

效率指标

  • 成功率:无碰撞到达目标的比例
  • 到达目标时间:从起点到终点的耗时
  • 相对路径长度:实际路径/最短路径(1表示完美)
  • 相对时间:拥挤环境耗时/自由空间耗时

舒适性指标

  • 社会成本:∑_i φ(||p_t - y_t^i||)的累积值
  • 加速度平滑度:|a_t|和|ω_t|的方差(低=舒适)
  • 急停次数:|a_t| > 阈值的次数

鲁棒性指标

  • 不同密度下的性能衰减(表8)
  • 不同延迟下的成功率(100ms, 300ms)
  • 失败模式分析(表9):碰撞、停滞、振荡等

可解释性指标

  • CBF屏蔽干预率:||δa_t|| > 0的步数比例
  • 屏蔽干预幅度:平均||u_t^* - u_t^{nom}||
  • 预测校准度:可靠性图(图11)

计算效率

  • 推理时间:Transformer <10ms, MLP <0.2ms, QP <0.3ms
  • 总周期时间:20-30ms(满足实时要求)

4. 系统性消融研究(表7):

研究设计了五个消融变体,逐一验证各组件贡献:

无预测(No Forecast)

  • 移除:预测器输出的风险特征ϱ_t
  • 保留:Safe-RL + CBF屏蔽
  • 观察:仅使用瞬时检测的效果
  • 结果:成功率↓5.9%,约束违规↑150%
  • 结论:预见性信息对安全至关重要

无屏蔽(No Shield)

  • 移除:CBF-QP安全过滤
  • 保留:Transformer预测 + Safe-RL
  • 观察:纯学习方法能否保证安全
  • 结果:成功率↓7.8%,约束违规↑450%
  • 结论:形式化安全层不可或缺

短时域(Short Horizon)

  • 修改:H从16步减至8步(时域减半)
  • 观察:预测时长对性能的影响
  • 结果:成功率↓2.2%,约束违规↑100%
  • 结论:0.8秒时域不足以预见交叉流

未校准(Uncalibrated)

  • 移除:温度缩放和分位数匹配
  • 观察:原始神经网络输出的效果
  • 结果:近距离率↑25%,屏蔽干预率↑40%
  • 结论:不确定性校准显著影响CBF保守性

风险盲(Risk-Blind)

  • 移除:CVaR头,仅使用期望成本
  • 观察:尾部风险规避的作用
  • 结果:近距离率↑15%,极端失败案例增多
  • 结论:CVaR塑造策略避免罕见但严重的失败

控制变量原则

  • 每个消融仅改变一个组件
  • 其他超参数、训练过程保持一致
  • 使用相同随机种子确保可重复性

5. 鲁棒性与敏感性分析(表8):

人群密度扫描

  • 低/中/高密度各600回合
  • 观察性能随密度的降级曲线
  • 发现:所提出方法在高密度下仍保持95.6%成功率(vs. PPO 83.2%)

延迟注入实验

  • 基线:50ms(正常感知延迟)
  • 测试:100ms, 300ms(模拟网络抖动)
  • 结果:300ms延迟下,所提出方法成功率94.0%(vs. DWA 80.0%)
  • 验证:延迟感知CBF的有效性

预测漂移模拟

  • 人为引入突然流动逆转(例如,所有行人同时转向)
  • 观察预测误差对安全的影响
  • 发现:CBF屏蔽能补偿大部分预测误差,但极端情况下仍可能停滞

6. 失败模式分类(表9):

研究不仅报告成功率,还细致分析失败原因

碰撞类型

  • 与移动人类碰撞:ORCA 6.1%, 所提出方法1.1%
  • 与静态物体碰撞:ORCA 1.8%, 所提出方法0.4%

非碰撞失败

  • 停滞/超时(无进展):ORCA 4.4%, 所提出方法1.9%
  • 门口振荡:ORCA 3.5%, 所提出方法0.9%

方法特定失败

  • 预测漂移→延迟规避:所提出方法0.7%
  • CBF不可行(极紧瓶颈):所提出方法0.3%

启示

  • 大部分失败来自反应式方法的振荡和停滞
  • 所提出方法的失败主要是边缘情况(预测误差、极端拥挤)
  • 指导未来改进方向(见下文)

7. 可视化与定性分析:

轨迹对比(图6、9)

  • 并排展示ORCA vs. 所提出方法的路径
  • 观察:ORCA路径曲折、频繁减速;所提出方法近乎直线、预先规避

安全评分可视化(图10)

  • 实时显示机器人周围的风险热图
  • 颜色编码:红色=高风险,绿色=安全
  • 展示预测器如何量化局部危险

学习曲线(图8)

  • 成功率、碰撞率、时间、奖励随训练回合的变化
  • 观察收敛速度和稳定性

可靠性图(图11)

  • 预测近距离概率 vs. 实际频率
  • 对角线=完美校准
  • 所提出方法曲线最接近对角线

确保评估公平性的措施:

1. 统一实验平台

  • 所有方法在同一仿真器(基于PyBullet/Gazebo)中测试
  • 相同物理参数(摩擦、惯性)
  • 相同传感器噪声模型(高斯噪声,σ=0.05m)

2. 随机化与重复

  • 每个配置运行600回合
  • 随机化:起点、目标、行人初始位置、行人目标
  • 报告均值±标准差,使用t检验验证显著性

3. 超参数公开

  • 所有方法的超参数在表2-4中详细列出
  • 学习率、批量大小、网络架构等透明公开
  • 支持社区复现

4. 基线实现

  • ORCA:使用官方RVO2库
  • DWA:使用ROS navigation stack默认参数
  • PPO:使用Stable-Baselines3库,与所提出方法相同的训练协议

5. 消融一致性

  • 所有消融变体从相同预训练检查点开始
  • 仅微调受影响的组件
  • 避免训练随机性干扰

未来研究方向:

1. 预测器改进

多模态预测器对比

  • 当前:仅评估Transformer
  • 未来:系统对比Trajectron++、SocialGAN、扩散模型
  • 问题:不同预测器对闭环安全的影响?

在线自适应校准

  • 当前:离线校准,固定参数
  • 未来:根据实时预测误差动态调整温度T和κ
  • 方法:元学习、贝叶斯在线更新

长时域预测

  • 当前:0.8-1.6秒
  • 未来:3-5秒(用于更早规划)
  • 挑战:长时域漂移、计算开销

2. Safe-RL扩展

世界模型MPC

  • 当前:无模型RL
  • 未来:学习环境动力学模型,结合MPC进行前瞻规划
  • 优势:更长时域推理、更好样本效率

多智能体协调

  • 当前:机器人单方面规避
  • 未来:与人类隐式协商(例如,机器人减速示意让行)
  • 方法:博弈论、社会力模型集成

元强化学习

  • 当前:固定环境训练
  • 未来:快速适应新医院布局
  • 方法:MAML、上下文编码器

3. CBF理论深化

高阶CBF

  • 当前:一阶CBF(速度层)
  • 未来:二阶CBF(加速度层),更平滑控制

自适应屏障参数

  • 当前:固定γ、R_safe
  • 未来:根据场景动态调整(拥挤时收紧,空旷时放松)

可微CBF

  • 当前:CBF与策略分离
  • 未来:通过隐函数定理反向传播CBF梯度到策略
  • 优势:端到端优化,更紧密耦合

4. 实际部署验证

真实医院试验

  • 当前:纯仿真
  • 未来:在合作医院进行IRB批准的导航试验
  • 挑战:伦理审查、患者隐私、安全认证

人类主观评估

  • 当前:客观指标(距离、时间)
  • 未来:医护人员和患者的主观舒适度问卷
  • 指标:信任度、接受度、感知安全

长期运营研究

  • 当前:单次任务
  • 未来:数周/数月的连续运营
  • 观察:性能退化、边缘案例积累、维护需求

5. 共享自主集成

操作员意图融合

  • 当前:全自主导航
  • 未来:操作员通过摇杆/凝视提供高层指令
  • 方法:动态权限分配、意图识别

紧急接管机制

  • 当前:机器人完全控制
  • 未来:操作员可随时接管(例如,遇到意外情况)
  • 设计:平滑过渡、haptic反馈

6. 跨域泛化

LTC环境测试

  • 当前:医院病房
  • 未来:养老院走廊、家庭环境
  • 问题:不同人群特征(老年人、儿童)的适应性

室外场景

  • 当前:结构化室内
  • 未来:医院园区、停车场
  • 挑战:更大空间、更高速度、天气影响

7. 理论保证强化

共形预测集成

  • 当前:参数化高斯校准
  • 未来:分布无关的有限样本覆盖保证
  • 方法:共形轨迹预测、集值CBF

形式化验证

  • 当前:实验验证
  • 未来:使用定理证明器(Coq、Isabelle)验证CBF不变性
  • 目标:获得医疗设备认证所需的安全证书

8. 计算效率优化

模型压缩

  • 当前:完整Transformer(~10ms)
  • 未来:知识蒸馏、剪枝、量化
  • 目标:<5ms,支持更低成本硬件

边缘部署

  • 当前:嵌入式GPU(NVIDIA Jetson)
  • 未来:专用AI加速器(TPU、NPU)
  • 优化:算子融合、混合精度

9. 多模态感知

视觉-语义融合

  • 当前:几何传感器(LiDAR、深度)
  • 未来:语义分割(识别医生、患者、访客)
  • 应用:差异化社会距离(医生可近,患者需远)

音频线索

  • 当前:纯视觉
  • 未来:语音识别(“让一下”)、环境音(警报)
  • 集成:多模态Transformer

10. 伦理与社会影响研究

隐私保护

  • 当前:记录所有轨迹
  • 未来:差分隐私、联邦学习
  • 确保患者数据不泄露

公平性分析

  • 当前:未区分人群
  • 未来:验证算法对不同种族、年龄、残障人士的公平性
  • 避免算法偏见

可解释性增强

  • 当前:黑盒神经网络
  • 未来:注意力可视化、反事实解释
  • 帮助医护人员理解机器人决策

总结:

本研究的实验设计通过临床驱动的场景、多样化的基线、全面的指标、系统的消融和严格的公平性措施,确保了评估的科学性和可信度。量化结果(约束违规↓60%,近距离↓39.5%,成功率↑7.6%)和定性分析(轨迹对比、失败模式)共同支持了所提出方法的有效性。

未来研究方向涵盖预测器改进、Safe-RL扩展、CBF理论深化、实际部署验证、共享自主集成等十大领域,为远程呈现机器人在医疗环境中的安全、高效、可接受的应用铺平道路。特别是真实医院试验和长期运营研究,将是验证仿真结果、推动临床采纳的关键下一步。


本翻译和问答全面覆盖了论文的核心内容,包括问题动机、技术创新(Transformer预测+Safe-RL+CBF三层架构)、数学原理(CMDP、机会鲁棒CBF、延迟补偿)、实验设计(场景、基线、指标、消融)和未来方向,为读者提供了深入理解该研究的完整视角。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐