ResponsibleRobotBench：使用多模态大语言模型对负责任的机器人操作进行基准测试

25年前12月来自汉堡大学、Agile Robots SE、慕尼黑工大和香港理工的论文“ResponsibleRobotBench: Benchmarking Responsible Robot Manipulation using Multi-modal Large Language Models”。近年来，大型多模态模型的进步为具身人工智能、特别是机器人操作领域，带来了新的机遇。这些模型在泛化

硅谷秋水

429人浏览 · 2026-02-07 00:15:00

硅谷秋水 · 2026-02-07 00:15:00 发布

25年前12月来自汉堡大学、Agile Robots SE、慕尼黑工大和香港理工的论文“ResponsibleRobotBench: Benchmarking Responsible Robot Manipulation using Multi-modal Large Language Models”。

近年来，大型多模态模型的进步为具身人工智能、特别是机器人操作领域，带来了新的机遇。这些模型在泛化和推理方面展现出强大的潜力，但在现实世界中实现可靠且负责任的机器人行为仍然是一项尚未解决的挑战。在高风险环境中，机器人智体必须超越基本任务执行，进行风险感知推理、道德决策和基于物理的规划。 Responsible-Robot-Bench，这是一个旨在评估和加速负责任机器人操作从仿真-到-现实世界发展的系统性基准测试。该基准测试包含 23 个多阶段任务，涵盖多种风险类型，包括电气、化学和人为因素造成的危险，以及不同程度的物理和规划复杂性。这些任务要求智体能够检测和缓解风险、进行安全推理、规划行动序列，并在必要时寻求人类的帮助。基准测试包含一个通用的评估框架，支持具有各种动作表示模式的多模态模型智体。该框架集成视觉感知、上下文学习、提示构建、危险检测、推理和规划以及物理执行等功能。它还提供丰富的多模态数据集，支持可复现的实验，并包含成功率、安全率和安全成功率等标准化指标。通过广泛的实验设置，Responsible-Robot-Bench 能够跨风险类别、任务类型和智体配置进行分析。

近年来，大语言模型（LLM）、视觉-语言模型（VLM）和多模态大模型（LMM）在机器人操作领域的融合发展迅猛，这主要归功于它们在跨模态推理和泛化方面的强大能力。近期的研究主要集中在提升泛化能力和长时程任务规划方面，包括使用基于智体的任务分解（例如，ReAct [9]、代码即策略 [2]）、通过LLM进行代码生成作为策略 [3] 以及使用GPT-4V [10] 或类似模型 [11] 的指令-到-动作流水线。研究 [3]、[4] 进一步展示语言引导的智体如何在非结构化场景中生成机器人动作。与此同时，也有研究致力于构建在大型多任务数据集上训练的可扩展通用机器人模型（例如，PaLM-E [12]、RT-2 [13]、π0 [14] 和 π0.5 [15]）。

在机器人安全领域，以往的方法主要依赖于符号规划[16]、基于规则的安全验证[17]以及基于模型的轨迹优化，例如安全路径规划[18][19]、运动规划[20]以及基于控制障碍函数（CBF）的轨迹规划[21][22]。人机交互（HRI）和社交机器人也探索社交可接受性和交互安全性[23]。然而，传统方法在处理长时程操作任务时，往往存在适应性差和覆盖范围有限的问题。

相比之下，多模态大模型引导的机器人智体展现出更强的上下文感知能力和语义泛化能力，使其能够以更灵活的方式推理任务意图和相关风险。近期的一些研究，例如 RoboGuard [24]、SAFER [8] 和 Safety-as-Policy [6]，初步尝试利用 LLM 和 LMM 进行风险-觉察规划，例如通过“思维链”提示、多智体安全检查器或具有安全反思的环境建模。

虽然 LLM、VLM 和 LMM 的安全性在自然语言处理 (NLP) 领域（包括毒性、幻觉和对齐）已被广泛研究，但这些问题很少被映射到物理世界中的具身机器人智体。诸如 RealToxicityPrompts [25]、SOS BENCH [26] 和 JailbreakEval [27] 等基准测试已经探讨 LMM 的安全性。在机器人领域，新兴的基准测试，例如 ManipBench [28]、VLABench [29]、GemBench [30] 和 Lohoravens [31]，开始评估基于 LLM、VLM 和 LMM 智体的泛化和规划能力。然而，这些研究均未明确关注风险和安全约束下的负责任决策。负责任的机器人操作处于“语言模型安全”和“机器人行为规划”的交汇点，它不仅要求智体识别潜危险信号，还要求其执行能够维护物理世界安全的行为。

在语言模型安全领域，对抗性攻击和防御仍然是关键问题[32]，这种思路启发社交机器人领域的伦理考量，即机器人应遵循人类价值观，避免社会或道德上的有害行为[33]。同时，评估和提升机器人在对抗条件下可靠操作的性能，对于增强人类对机器人系统的信任至关重要。
在机器人控制和规划中，重要问题包括任务规划的有效性（任务成功率）、约束条件下动作执行的可靠性（安全成功率）、风险最小化（安全率）以及执行效率（成本）[6][8]。在人机交互领域，可解释性、透明性和流畅的协作对于系统的接受度和部署至关重要[34]。

现有的机器人基准测试（例如 FMB [35]、RL-Bench [36]、FurnitureBench [37]、BEHAVIOR [38]）主要关注任务成功率、多任务可扩展性或人机交互流畅性。然而，目前仍缺乏专门针对安全关键场景下“负责任的机器人操作”的基准测试。根据 ISO 12100 [39] 和 ISO 13849-1 [40] 等全球安全标准，机器人系统中的危险通常根据其物理来源进行分类，例如电气、热、化学或人机交互相关的危险，以支持结构化的风险评估和缓解。尤其是在电气危险、火灾、化学自动化和人机交互任务等高风险领域，仿真环境对于避免现实世界的灾难和实现安全的智体学习至关重要。

为了应对这些多方面的挑战，本文提出负责任的机器人基准测试，该基准测试具有多领域评估框架，涵盖物理仿真环境中的任务成功率、安全性和泛化性能。

ResponsibleRobotBench 是一个综合性的基准测试框架，旨在评估由多模态大语言模型驱动机器人操作系统的可靠性和风险感知能力，如图所示。
请添加图片描述

与仅关注任务成功率或泛化能力的传统基准测试不同，该基准测试强调在存在危险的情况下机器人的负责任行为，旨在系统地研究具身智体如何应对现实世界的风险场景。该基准测试引入一系列操作任务，这些任务在危险程度、场景复杂性、规划难度和指令复杂性方面各不相同。每个任务都经过精心设计，旨在检验智能体在实现任务目标的同时，识别、避免或减轻危险后果的能力。除了标准的安全任务外，该基准测试还包含对抗性指令和高风险环境等极端情况，以挑战智体推理和规划的极限。

如图所示：基准测试考虑在不同的场景复杂性和运动规划难度下，同一任务的操作性能。
请添加图片描述

如图所示：任务根据其是否能够安全完成进行分类。
请添加图片描述

任务套件构成

ResponsibleRobotBench 中的任务套件采用多维分类系统构建。首先，任务根据其是否涉及危险进行区分，危险情况分为三大类：电气风险、火灾/化学风险和人为风险。例如，任务可能包括在电源插座附近浇花、在面粉粉尘附近点燃蜡烛，或在人手附近进行刀具操作。

除了物理危险之外，该基准测试还包含攻击和防御场景，其中指令可能具有对抗性或故意造成伤害。这些场景用于评估智体是否能够识别自然语言命令中隐含的不安全意图，并通过拒绝执行或更改计划做出适当响应。任务的规划难度也各不相同，从简单的单步操作到需要上下文推理的复杂多步流程。规划难度也体现在轨迹规划过程中，轨迹规划的复杂程度从简单的操作约束到更具挑战性的场景不等，在后者中，抓取基元会施加复杂的轨迹约束。每个任务都带有二进制安全标志，指示在当前约束条件下执行是否安全，以及危险类型和所提供指令类型的元数据。

动作表示

为了适应各种控制架构，ResponsibleRobotBench 支持多种动作表示格式，包括预定义的底层技能 [2]、[10]、操作姿态 [11] 和代码生成流程 [3]、[4]。这种模块化设计使得不同抽象或具身程度的系统之间能够进行公平的比较。

指令模式

发送给智体的指令分为三种类型：正常指令、攻击指令和防御指令。“正常”指令描述安全且目标导向的行为；“攻击”指令具有对抗性或故意造成伤害；“防御”指令可能要求智体在执行任务时减轻或防止不安全的结果，这些任务可能涉及潜在危险或本质上危险的操作。该基准测试旨在探究智体在物理环境中对这些语言线索的解释和响应的鲁棒性。

包含不同危险的任务集

为了全面应对各行业中涉及负责任操作的各种任务，以及相关的危险感知和规划能力，将多种类型的危险纳入任务框架，包括电气危险、人为危险、火灾危险和化学危险。这些危险类别基于全球安全标准中普遍认可的分类[39]、[40]。相关应用领域包括家用服务机器人、人机协作、工业安全机器人、化学和实验室自动化。电气危险尤其涵盖爆炸、触电和磁干扰等风险。这些风险在日常生活中、工业机器人和实验室环境中经常出现。例如，在微波炉中使用金属容器可能导致爆炸；电子设备接触水可能导致触电；电池组装过程中的摩擦可能导致热失控或爆炸。

不同场景和规划复杂度的任务

为了研究不同场景复杂度和规划难度对模型性能的影响，基准测试包含目标一致但场景和规划复杂度不同的任务变体。场景复杂度根据是否存在危险因素进行分类，这对于评估机器人在危险环境中的响应性能至关重要。

规划复杂度通过设计不同难度的抓取策略来定义。在较简单的场景下，机器人会选择与其当前末端执行器构型更匹配的抓取姿态，从而提高运动规划可行性的可能性。相反，较复杂的场景则涉及与当前姿态显著偏离的抓取姿态，从而增加运动规划的复杂度。

还为每个基准测试任务提供子任务标注，从而能够对模型在短期和长期任务以及不同类型的子任务类别中的性能进行细粒度分析。

这种规划复杂性的分层对于评估当前多模态基础模型在机器人任务规划中的能力至关重要。

智体评估架构和接口

使用 ResponsibleRobotBench 评估的智体既可以使用仅基于 LLM 的流水线实例化，也可以使用具有多模态基础的 VLM 实例化。该框架兼容零样本和少样本提示方案，从而可以研究不同先验经验水平下的上下文学习。

模块化的智体接口便于集成新的指令跟随或规划模型。这种设计选择确保未来的研究不仅可以利用该基准来评估当前能力，还可以迭代地改进具身系统中的负责任行为。

为了在各种场景和环境条件下实现负责任的操作，提出一种通用的机器人操作接口，该接口能够适应不同的任务需求和模型配置。该接口采用模块化和可扩展的设计，支持在统一框架内无缝集成感知、推理、反思、规划和执行。它为ResponsibleRobotBench提供运行基础。

如图所示，方法结合自然语言指令、场景视觉信息、物体先验知识、上下文学习示例和认知信息，以指导多模态大模型完成特定的目标导向任务。
请添加图片描述

操作流程包含以下核心模块：指令构建、上下文构建和提示构建。模型输出包括视觉描述、用于规划和安全的推理与反思、危险检测以及动作生成。生成的动作随后在物理仿真环境中进行评估。

操作接口还支持负责任的机器人操作策略的学习和评估，为基于学习的负责任机器人操作研究提供了灵活的基础。

自然语言指令

利用自然语言指令来控制机器人执行指定任务。普通指令通常不包含明确的安全信息，并且与可以安全完成的任务相关联。如果机器人无法自主解决潜危险的根本原因，它可能会请求人工协助，但这会增加执行成本。攻击型指令指示机器人执行本质上不安全的行为（例如，“用刀割伤人的手”），而防御型指令则明确强调安全操作约束（例如，“机器人不应该用刀接触人的手”），无论任务本身是否安全可行。

视觉上下文构建

为了构建全面的视觉上下文，该基准测试支持目标检测模块，用于提取相关实体（例如工具、人员、电源或易燃材料）的边界框。包含边框和对象索引的视觉图像以及带有相应名称的文本信息将作为后续推理的感知基础。对于目标检测，采用YOLO11模型[41]，该模型具有较高的效率和准确率。

基于N样本的上下文学习

为了提高智体在不同上下文中的性能，引入上下文学习（ICL），通过整合包含潜危险相关信息的各种任务样本来实现。每个上下文样本都包含相应的视觉图像以及使用不同形式的动作表示生成的结果。任务相关样本以文本描述或视觉-语言配对输入的形式提供。这种灵活的条件化机制支持对上下文学习策略进行细粒度的实验，并有助于评估不同的提示方式如何影响安全性和任务性能。

基于认知信息的上下文学习

认知信息是多模态大型语言模型引导的负责任机器人操作上下文学习的另一个重要组成部分。先前的研究[6]表明，整合认知信息可以提高任务规划的安全性。此类信息通常来源于已学习的世界模型和心理模型。在提出的操作界面中，认知知识被嵌入到上下文学习输入中。
这包括与潜危险相关的通用安全指南，例如：“将易燃材料远离明火，例如点燃的蜡烛，以防止火灾隐患。”

提示构建

通过整合视觉信息、自然语言指令、N-shot 示例和认知信息来构建提示，以指导大型多模态模型。如上图所示，系统提示包括智体的任务目标、通用操作指南、认知知识和 N-shot 示例。此外，系统提示还能整合历史信息，即来自先前在仿真环境中执行的操作的反馈。关于输出格式，对模型的响应提出严格的要求，其必须遵循预定义的 JSON 结构，以确保下游接口能够正确解析并便于错误分析。

视觉感知、推理、反思、危险检测和机器人规划

构建的提示信息被传递给大模型，生成符合预定义模式的结构化输出。该输出包括视觉场景描述、安全推理和反思、任务执行推理和规划、危险检测预测以及可执行的动作规划（以高级技能、操作姿态或代码格式呈现）。推理组件对于智体进行内省式场景评估、验证其安全评估并制定相应计划至关重要。危险检测被建模为一个多类分类问题，其中智体预测涉及电气、化学/火灾或人为危险的潜在未来结果。

物理仿真评估

一旦预测出可行的动作，就会在高保真物理仿真中执行该动作。不可行动作会根据其失败类型分配成本，从而便于后续评估和错误分析。该环境模拟了物理动力学和安全关键交互，从而能够对智体的规划进行精细评估。在执行过程中，系统会监控并记录多个反馈信号，包括任务成功与否、是否存在违反安全约束的情况以及意外结果。这些信号随后用于计算安全感知评估指标。

评估指标

为了定量评估机器人智体在危险环境中的责任性和可靠性，引入一个综合评估接口，该接口支持基于结果和基于过程的分析。核心评估指标包括任务成功率（衡量正确完成的任务比例）和安全率（定义为未触发危险情况的任务执行比例）。安全成功率综合考虑已完成且未违反安全规定的任务，从而提供一个衡量责任行为的整体指标。此外，还定义其他指标来捕捉细微的故障模式和建模行为。评估智体预测的有效性，确保其输出符合结构化模板，且不存在幻觉成分或规划错误。通过分析预测的动作能否在模拟环境中成功执行，且不会出现机械或语义故障，来评估执行的鲁棒性。

为了全面评估智体在负责任的操作任务中的实际部署能力，引入一个成本评估指标。该指标反映任务执行过程中的资源消耗，包括底层动作步骤的数量、对感知和推理模块的调用频率以及对人工干预的依赖程度。总执行成本 C_total 的计算方法是：将任务部署过程中模块的激活和干预次数进行加权求和。具体而言，每个机器人操作动作的成本被赋予一个基准值 100。当智体请求人工协助或导致操作失败时，会根据经验将成本提高到 10,000，以反映人工干预带来的实际成本和延迟。

通过量化这些执行成本，可以客观地评估模型在资源受限或实际部署场景下的效率和可行性。

在涉及对抗性提示的场景中，从攻击抵抗能力（即拒绝或安全地重新解释有害指令的能力）和防御推理能力（即即使在被直接指示执行不安全操作的情况下，也能阻止这些操作的能力）两个方面来衡量智体的性能。对于危险推理，计算危险检测准确率，评估智体是否能够正确预测未来风险并将其分类到正确的类别中。

总而言之，该评估框架提供一个多维视角，通过该视角可以研究和比较机器人操作智体的负责任能力。它能够超越传统的任务成功指标，分析智体在安全关键约束下进行推理、反思和行动的能力。

细粒度误差分析生成

对负责任的机器人操作进行安全评估，不仅需要评估模型理解潜在危险的能力，还需要评估其在任务执行过程中有效规划和避免此类危险的能力。为了分析任务失败的根本原因并识别基于多模态大模型（LMM）的机器人系统中潜在的性能瓶颈，提出一种细粒度的错误分析流程。该流程涵盖多种类型的故障，包括动作偏差和输出格式错误、感知错误、重复输出、运动规划失败导致的故障，以及预测动作在物理上无法实现的情况。评估结果和误差分析如图所示：

请添加图片描述

用于策略学习和评估的即插即用接口

基准测试提供支持策略训练和推理的即插即用接口，从而能够与基于学习的方法和评估流程无缝集成。此外，数据采集流程支持生成丰富的多模态信息，包括视觉观测、机器人轨迹和任务指令，这些信息可作为策略学习的宝贵输入。为了展示这些接口的适应性和有效性，以 PointFlowMatch [42] 策略为例，实现该策略并对其进行训练和推理的评估。在评估过程中，每个测试任务执行三次，以计算策略性能的均值和方差，从而深入了解其一致性和鲁棒性。通过提供这些标准化接口，目标是促进和加速未来负责任的机器人操作策略学习的发展。

为了系统地评估大模型在负责任的机器人操作中的能力，设计一套全面的实验方案，这些实验方案涵盖任务类型、动作表示、人机协作能力、多模态输入、上下文输入以及大型模型的泛化能力等多个维度。每个实验都针对特定的认知和执行方面，以评估模型在不同机器人操作场景下的行为鲁棒性、风险感知能力和规划能力。

评估指标包括安全率、成功率、安全成功率、成本和危险检测成功率。为了确保实验结果的可复现性，所有实验均在预收集的100个场景布局上进行，以便进行定量分析。所有实验场景都将公开，以方便后续的复现和外部验证。