RoboBrain2.0-7B模型论文速读：具有约束意识的可视化编程在反应式和主动式机器人故障检测中的应用

Panesle

535人浏览 · 2025-06-11 10:47:44

Panesle · 2025-06-11 10:47:44 发布

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

一、引言

本文提出了一种名为 Code-as-Monitor (CaM) 的新范式，旨在利用视觉 - 语言模型 (VLM) 实现机器人的开放集反应式和前瞻性故障检测。随着机器人在复杂环境中执行长期任务的期望不断提高，自动检测和预防故障变得至关重要。现有的研究往往难以同时识别发生后的意外故障（反应式）和预防可预见的故障（前瞻性）。CaM 通过将两种检测任务统一 formulized 为时空约束满足问题，并利用 VLM 生成的代码进行实时监控来解决这一挑战。

二、相关工作

（一）机器人故障检测

recent studies 借助大型语言模型 (LLMs) 和 VLMs 实现了开放集反应式故障检测，但存在执行速度慢和检测精度粗的问题。此外，开放集前瞻性故障检测在文献中鲜有探索，它需要预见潜在的故障原因并实时监控以预防即将发生的故障。

（二）视觉提示

视觉提示可增强 VLM 的视觉推理能力，包括基于掩模、基于点和基于元素的方法。与这些方法相比，本文提出的约束元素更精确地表示相关实体 / 部分，通过跟踪和评估这些元素简化监控。

（三）视觉编程

视觉编程需要强大的视觉概念理解和推理能力。先前的研究通过结合 LLMs 和视觉模块展示了跨各种任务的泛化能力，但在细粒度细节上有所损失。而 CaM 利用约束元素进行视觉编程，在代码中使用算术运算编码元素的时空组合动态，更具挑战性。

三、方法

（一）概述

CaM 包括三个关键模块：约束生成器、绘画器和监控器。该框架关注长期操作任务指令，基于来自两个摄像头视图 (正面和顶部) 的 RGB-D 观察。约束生成器根据任务指令、先前的子目标和失败反馈生成下一个子目标及相关文本约束。绘画器将文本约束转化为图像上的约束元素。监控器则根据这些元素实时检测故障。

（二）约束元素

为简化约束满足的监控，本文引入约束元素，将约束相关的实体或部分抽象为紧凑的几何元素 (如点、线)。通过 ConSeg 模型对观测图像进行实例级和部分级掩模生成，再将这些掩模投影到 3D 空间，融合成点云。经过一系列启发式处理，生成约束元素。

ConSeg 模型基于 LISA，包含 VLM、视觉编码器和解码器。文本约束和图像输入到 VLM 中生成

（三）实时监控模块

监控器利用 GPT-4o 根据下一个子目标、文本约束和标注观测生成评估协议（即监控代码）。该代码输入元素的 3D 位置，执行算术运算，返回布尔值指示潜在或实际故障，并返回字符串描述原因。通过 CoTracker 实现元素的跟踪，从而实现基于 VLM 的实时检测，无需频繁调用。

四、实验

（一）实验设置

在三个模拟器 (CLIPort、Omnigibson 和 RLBench) 和一个真实世界设置中评估 CaM。实验涉及多种操作任务、机器人平台和末端执行器。ConSeg 模型在部署前使用从每个模拟环境收集的 100 条轨迹进行微调。真实世界实验中使用的 ConSeg 模型未经过微调，以严格评估其泛化能力。

（二）主要结果

1. 模拟器中的结果

在 CLIPort 的 “按顺序堆叠” 任务中，CaM 在最严重干扰下比 DoReMi 的成功率高出 17.5%，并且减少了执行时间。在 “扫一半块” 任务中，CaM 的平均成功率比 DoReMi 高 4.5 倍。

在 Omnigibson 的实验中，只有 CaM 能够检测 “倒茶” 任务中由表面级干扰引起的故障。与 DoReMi 相比，CaM 在执行时间和令牌使用量上分别降低了 34.8% 和 52.2%。

2. 真实世界中的结果

在简单抓取和放置任务中，CaM 处理不同种类对象的成功率比 DoReMi 高出 20.4%。在推理抓取和放置任务中，只有 CaM 成功处理了杂乱场景中的长期任务。

（三）分割结果

ConSeg 在 ReasonSeg 基准测试中与 LISA 和 PixelLM 表现相当，但在 ConstraintSeg 上显著优于它们，在部分级别上几乎提高了 40%。

（四）消融研究

消融研究表明，多视图对于视觉编程至关重要，约束感知分割有助于提高元素质量，形成元素有助于代码生成，元素简化了约束计算。

五、结论

本文提出的 Code-as-Monitor 范式通过利用 VLM 实现开放集反应式和前瞻性故障检测，将两种检测模式 formulized 为时空约束满足问题，并使用 VLM 生成的代码进行评估以实现实时监控。此外，论文还提出了约束元素以提高监控的精度和效率。广泛的实验表明，该方法在模拟器和真实世界设置中均优于基线方法，证明了其泛化能力和实时、精确故障检测的优势。