25年3月来自明尼苏达大学、乔治亚理工和智利天主教大学的论文“Safety Aware Task Planning via Large Language Models in Robotics”。

将大语言模型(LLM)集成到机器人任务规划中,显著提升机器人处理复杂、长周期工作流程的推理能力。然而,由于LLM驱动的规划通常优先考虑任务完成而非风险缓解,因此确保其安全性仍然是一项关键挑战。本文提出SAFER(机器人执行中的安全-觉察框架),这是一个多LLM框架,旨在将安全-觉察嵌入到机器人任务规划中。SAFER采用一个与主任务规划器协同运行的安全智体,提供安全反馈。此外,还引入LLM作为评判器(LLM-as-a-Judge)这一指标,利用LLM作为评估器来量化生成任务规划中的安全违规行为。框架在执行的多个阶段集成了安全反馈,从而实现了实时风险评估、主动纠错和透明的安全评估。还集成了一个使用控制屏障函数(CBF)的控制框架,以确保SAFER任务规划中的安全保障。针对涉及异构机器人智体的复杂长周期任务,将 SAFER 与最先进的 LLM 规划器进行对比评估,结果表明 SAFER 能够在保持任务效率的同时有效减少安全违规。此外,还通过涉及多个机器人和一名人类的实际硬件实验验证任务规划器和安全规划器的有效性。


SAFER引入多LLM协作机制,以增强LLM驱动的任务规划的安全性和鲁棒性。该框架由四个核心模块组成:规划模块、执行模块和LLM作为评判员的反馈模块。这些组件协同工作,确保在整个任务规划和执行流程中系统地执行安全检查。

规划模块。如图所示,规划模块负责为异构机器人智体生成结构化的、具有安全感知能力的动作序列。与单智体规划模型不同,SAFER集成两个专门的LLM,以平衡任务效率和安全性。它利用任务规划LLM,根据外部反馈迭代地优化任务规划。任务规划LLM是动作序列的主要协调器。给定高级任务描述、智体能力和环境观测数据,任务规划LLM将目标分解为可执行的子任务。为了引入安全-觉察能力,安全规划LLM与主规划器协同工作。这种以安全为中心的LLM针对生成的任务序列提供安全相关的反馈,以识别潜危险,包括空间冲突、无效的动作依赖关系和遗漏的前提条件。该LLM生成的反馈被集成到规划LLM中,确保最终规划在保持效率的同时,也符合通用的安全约束。
请添加图片描述

(研究问题)为什么选择多LLM协作而不是检索增强生成(RAG)或少样本学习(FSL)?虽然RAG和FSL等技术可以帮助检索相关信息并将其集成到中央任务规划器的提示中,但它们无法解决LLM固有的上下文窗口限制。这些方法仍然依赖于将所有必要的细节都塞进单个LLM的提示中,这限制了长远推理和安全执行。相比之下,多LLM协作方法将任务规划和安全反馈解耦,使一个LLM专注于结构化任务生成,而另一个LLM则专门负责安全评估和反馈。

执行模块。执行模块负责将精细化的任务计划转化为可执行的指令,供机器人代理执行。它由异构机器人代理(机械臂、四旋翼飞行器和机器狗)组成,这些代理执行计划的动作。每个机器人代理都配备一个特定的机器人执行逻辑层级模型(LLM)。如上图所示,机器人智体拥有一个可执行动作列表。与严格遵循预定义轨迹的传统执行流程不同,SAFER 通过在执行前验证动作的可行性来实现实时适应性。一旦任务分配给特定的机器人代理,机器人执行 LLM 就会预测该任务是否可执行。如果任务失败,反馈模块会分析失败原因并将反馈发送给规划模块。

反馈模块。如上图所示,反馈模块接收当前状态输入,包括任务目标、机器人能力和执行进度。该模块会在动作失败后提出修正建议,并在成功执行后更新进度。该模块生成两种形式的反馈:失败反馈和成功反馈。当由于环境限制、资源不足或顺序错误导致操作无法执行时,系统会触发失败反馈。例如,机械臂由于对准错误而无法抓取物体,或者无人机由于飞行路径受阻而无法起飞。接下来,规划模块会利用反馈模块的输出结果来优化任务规划。当子任务成功完成时,系统会发出成功反馈,允许进入下一个执行阶段。这种反馈机制确保 SAFER 在执行长期任务时保持一致性。


为了确保符合SAFER规定的安全指标,采用控制屏障函数(CBF)。CBF首先设计一个安全集,然后利用CBF确保给定安全集的前向不变性,即如果系统从安全集开始,则它将保持在安全集内,从而保证安全性。CBF提供关于安全性的理论保证,并通过以最小侵入性的方式修改标称控制器来确保安全性。其架构可应用于多种控制策略,快速求解器可确保实时部署。即使参考轨迹违反安全约束,也能保证安全性。采用与[38]和[39]类似的方法设计机器人系统的约束。

控制屏障函数

对于大多数机器人系统,其安全约束可以根据系统状态来定义。机器人的状态空间可以根据其关节空间、任务空间或操作空间来定义。由于控制屏障函数首先需要定义一个安全集,因此该安全集需要根据相关的关节空间、任务空间或操作空间来设计。如果 x 是与关节空间、任务空间或操作空间相关的状态,并且 C_0 定义安全集,使得屏障函数 h(x) ≥ 0 能够确保安全。
安全约束大致可分为两类:关节空间和操作空间。

关节安全约束

与机器人系统硬件属性相关的安全约束属于关节安全约束的范畴。这些安全约束包括关节位置限制、关节速度限制以及与每个机器人系统电机相关的扭矩限制。它们通常由硬件制造商定义,任何违反这些约束的行为都会导致机器人系统无法运行。

任务和操作安全约束

与机器人系统相关的任务和操作安全约束包括避障、限制机器人操作空间以及避免奇异点等属性,以确保机器人不会失去在任何方向上的控制能力。它还包括避免与其他机器人和物体碰撞等约束。这些约束确保控制器、操作人员以及机器人免受损坏的安全。

目标和约束设定

LLM为每个机器人定义一系列指令和一组约束。在序列的每个步骤中,引入一个解析器,将机器人的子任务转换为目标,这些目标定义基座的期望速度、末端执行器的位姿或夹爪的状态等等。这些目标会不断更新,以实现序列中的每个步骤。对于约束条件,它们可以是全局约束(在整个序列中都有效),也可以是仅在特定步骤中生效的约束。此外,还使用解析器对约束条件进行转换,该解析器定义优化器在控制过程中需要考虑的障碍函数 h(x)。

诸如 GPT-4o 之类的 LLM 生成的输出以自然语言表达。如图展示提示信息的一种表示形式。
请添加图片描述

为了将这些输出转换为可执行的机器人指令,提出将自然语言描述解析为结构化命令,将其映射到机器人控制 API,并确保无缝执行。该方法侧重于创建一个稳健的流程,以弥合高级任务规范和低级机器人动作之间的差距,同时保持高精度。为此,引入两个解析器,考虑机器人的能力以及物体和用户的姿态来定义控制和安全目标,如图所示。
请添加图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐