论文阅读-RGMP: Recurrent Geometric-prior Multimodal Policy for Generalizable Humanoid Robot Manipulation

人形机器人在执行多样化人类级技能方面展现出巨大潜力。然而，当前研究主要依赖于数据驱动的方法，这些方法需要大规模训练数据集才能实现鲁棒的多模态决策能力与可泛化（generalizable）的视觉运动控制。此类方法因忽视未知场景中的几何推理能力，且对训练数据中机器人-目标关系的建模效率低下，导致训练资源被大量浪费，引发广泛担忧。为应对这些局限性，本文提出递归几何先验多模态策略（RGMP）——一个端到端

Hiweir ·

936人浏览 · 2026-01-11 21:39:36

Hiweir · · 2026-01-11 21:39:36 发布

3.1提出GSS（Geometric‑priorSkillSelector）

3.2提出ARGN（Adaptive Rotation‑basedGaussianNetworkforvisuomotorcontrol）

3.3综合真实机器人评估

4.研究方法

4.1 GSS (Geometric-prior Skill Selector)

4.1.1动机（Motivation）

4.1.2GSS的两个阶段

4.1.3GSS的流程示例

4.2 ARGN (Adaptive Recur sive Gaussian Network)

4.2.1动机（Motivation）

4.2.2 ARGN 框架

1. 论文概要

1.1 题目

RGMP：面向通用型（可泛化）人形机器人操作的循环几何先验多模态策略

论文原文链接：https://arxiv.org/abs/2511.09141
Code —https://github.com/xtli12/RGMP.git （代码开源链接）

1.2 作者

1.3作者单位及邮箱

第一作者单位：武汉大学计算机科学学院

通讯邮箱：{xtli312,wenkehuang,yemang,jxuan,miao.li}@whu.edu.cn

1.4 摘要

人形机器人在执行多样化人类级技能方面展现出巨大潜力。然而，当前研究主要依赖于数据驱动的方法，这些方法需要大规模训练数据集才能实现鲁棒的多模态决策能力与可泛化（generalizable）的视觉运动控制。此类方法因忽视未知场景中的几何推理能力，且对训练数据中机器人-目标关系的建模效率低下，导致训练资源被大量浪费，引发广泛担忧。

为应对这些局限性，本文提出递归几何先验多模态策略（RGMP）——一个端到端的框架，它将几何语义技能推理与数据高效的视觉运动控制相统一。在感知能力方面，我们设计了几何先验技能选择器（Geometric-prior Skill Selector），该模块将几何归纳偏置注入视觉语言模型中，仅需极少量的空间常识调优，即可为未见场景生成自适应的技能序列。为实现数据高效的机器人运动合成，我们引入了自适应递归高斯网络（Adaptive Recursive Gaussian Network），该网络将机器人-物体交互参数化为一个紧凑的高斯过程层次结构，通过递归编码多尺度空间关系，即使从稀疏演示数据中也能生成灵巧且数据高效的运动轨迹。

在我们的人形机器人平台及桌面双臂机器人上的评估表明，RGMP框架在泛化测试中取得了87%的任务成功率，并且其数据效率达到当前最优模型的5倍（此指标如何计算的？）。这一性能凸显了其卓越的跨领域泛化能力，为开发更具通用性和数据效率的机器人系统铺平了道路。

问题1：

提出的RGMP框架如何将几何语义技能推理与数据高效视觉运动控制相结合？

问题2：

在感知能力方面，我们设计了几何先验技能选择器（Geometric-prior Skill Selector），该模块将几何归纳偏置注入视觉语言模型中，仅需极少量的空间常识调优，即可为未见场景生成自适应的技能序列。如何具体实现的？

问题3：

为实现数据高效机器人运动合成，我们引入自适应递归高斯网络，将机器人‑物体交互参数化为高斯过程的紧凑层次结构，该结构递归编码多尺度空间关系，即使从稀疏演示中也能生成灵巧、数据高效的运动合成。如何具体实现的？

2.研究问题

当前研究主要依赖数据驱动方法，需要大量训练数据集才能实现稳健的多模态决策能力和泛化视觉运动控制。这些方法因忽视未见场景中的几何推理以及训练数据中机器人‑目标关系的低效建模而引发担忧，导致训练资源严重浪费。

2.1研究问题1

传统的视觉语言模型（VLMs）如PaLM‑E 和指令BLIP 在从语言‑视觉输入中解析语义意图方面展现出显著能力。这些模型利用大规模预训练生成基于视觉观察的任务计划，但它们将抽象指令与情境适宜的机器人技能关联的能力仍然受限。

例如，当面对未见场景中形状各异的靶标时，这些模型在技能选择（如抓取与捏取）的歧义解析上存在困难。

原因：空间物体几何（如边界框、形状）与语义任务规范之间整合不足，而在动态环境中，技能可行性依赖于泛化的空间推理，这一差距被进一步放大。

由此，提出研究问题1：

I) How can robots leverage spatial geometric reasoning to enable feasible skill selection?

机器人如何利用空间‑几何推理 来支持可行的技能选择？

2.2研究问题2

从有限的演示中学习精确的动作策略仍然是一个开放性的挑战。

现有研究：虽然扩散模型（diffusion models）和 基于Transformer的架构在轨迹生成方面显示出潜力，但它们对大量训练数据（10k+轨迹）的依赖以及计算复杂度（1–5Hz推理速率）限制了实际部署。模仿学习方法（Zhang等人， 2018年）通过利用人类先验知识部分缓解了这一问题，但它们往往过拟合于演示特定的特征（泛化能力弱），在未见过的物体上仅达到 40–60%的成功率。

关键：将任务不变的视觉特征（例如基于上下文的特征）与任务特定的运动模式进行解耦。

由此，提出研究问题2：

II) Howcanthe inherent mechanisms of robot learn the gen eralized ability with limited demonstrations?

机器人的内在机制如何通过有限的演示学习泛化能力？

3.主要贡献

3.1提出GSS（Geometric‑priorSkillSelector）

一个几何先验技能选择器：

通过低秩几何适配器增强视觉语言模型（VLM），从预训练库中选择参数化技能。通过注入形状级别的常识，GSS优先选择满足潜在几何约束条件的技能，从而实现与人类对齐的推理，而无需特定任务的微调。

3.2提出ARGN（Adaptive Rotation‑basedGaussianNetworkforvisuomotorcontrol）

一个自适应递归高斯网络（即插即用的数据高效视觉运动模型）：

通过自适应衰减机制和旋转嵌入（RoPE）来调节潜在表示，以捕获时间一致潜在空间中方向性空间依赖关系。分层融合模块保留多尺度视觉线索，并将它们输入到高斯混合编码器中，该编码器将6‑自由度轨迹分解为紧凑的全协方差混合，从而在严重数据稀缺的情况下实现显式的目标条件密度建模。

3.3综合真实机器人评估

RGMP在两个物理机器人平台上进行严格评估，通过联合耦合几何语义推理与递归高斯特征重新加权，展现出鲁棒性能。与扩散策略相比，RGMP在泛化测试中实现87%的成功率，并表现出5×更高的数据效率。

4.研究方法

RGMP（Recurrent Geometric-prior Multimodal Policy）

循环几何先验多模态策略：

一个端到端的框架，将几何语义技能推理与数据高效的视觉运动控制相结合。

框架的整体输入：

（1）人类的自然语音指令

（2）机器人的视觉感知（图像）

框架的整体输出：

（1）机器人执行任务的语音？

（2）机器人的任务执行

此框架包含两个核心组件：

（1）GSS (Geometric-prior Skill Selector)

使用几何常识将语言指令和视觉线索转换为可执行技能。

（2）ARGN (Adaptive Recur sive Gaussian Network)

处理视觉输入以预测操作动作。策略学习直接从RGB中推断3D空间关系，通过将视觉线索与动作关联起来，依赖于高效的隐式表示而不是显式3D重建。

4.1 GSS (Geometric-prior Skill Selector)

几何先验技能选择器

提升机器人的感知能力：将几何归纳偏置注入视觉语言模型，通过极少的空间常识微调生成适用于未见场景的适应性技能序列。

4.1.1动机（Motivation）

在机器人领域，一个关键挑战是在未见场景中对形状各异的物体进行细粒度技能选择（例如，抓取与捏取）。

目前研究：传统视觉语言模型（VLMs）能够实现目标识别和定位，由于忽略了几何先验和视觉-动作映射，导致无法将语义观察应用到准确的动作。

这促使我们开创性提出GSS框架，它通过新的几何-对象分解机制将几何推理和语义任务规划联系起来。

4.1.2GSS的两个阶段

第一个阶段：（调用两次VLM）

使用VLM来解析人类的语音指令 I，使机器人能够在观察到的图像中识别和定位目标对象（标注边界框）。-------->输出O

第二个阶段：

基于第一阶段获得的边界框，系统分析目标对象的常识信息，包括其相对位置及其形状信息「来自Yolov8n‑seg(Yaseen2024)模型ϕ()」。-------->行动计划（actionplan）P

随后，机器人系统根据GSS的输出[行动计划（actionplan）P]从技能库中选择预训练的技能模型（从Grasp抓取、Lift up提升、Pinch捏取三个预训练的技能模型中选择）。

规划函数通过以下方式运行：

P是生成的行动计划（actionplan），

I表示当前用户指令，

O是当前视觉观察（由VLM用边界框标注的 RGB图像），

C代表一个预定义的上下文（指令、提示和常识），它由n个示例组成，以实现上下文学习。

预定义的上下文C 示例如下图：

4.1.3GSS的流程示例

当指令是“我想芬达”时，GSS流程如下：

（1）遵循上下文“请在指令中框定目标对象”来从各种其他物品中识别“芬达”，

（2）应用 YOLOv8n‑seg来获取芬达的形状信息。

（3）VLM随后通过将其已建立的上下文框架C与基于几何的先验推理相结合来合成行动计划（action plan）P。

4.2 ARGN (Adaptive Recur sive Gaussian Network)

自适应递归高斯网络

实现数据高效机器人运动合成：将机器人‑物体交互参数化为高斯过程的紧凑层次结构，该结构递归编码多尺度空间关系，即使从稀疏演示中也能生成灵巧、数据高效的运动合成。

4.2.1动机（Motivation）

在机器人任务中，从机器人的视觉视角理解空间关系至关重要。

机器人必须识别场景中的哪些部分对应其末端执行器的位置。

目前研究：先前方法由于视觉运动表示学习中的固有局限性，往往难以揭示未见场景中不同图像区域之间的潜在关系，这限制了泛化能力。

为解决此问题，我们提出了ARGN框架，该框架旨在自适应地建模机器人在未见环境中与目标物体之间的全面空间依赖关系，同时在训练数据有限的情况下减轻过拟合问题。

4.2.2 ARGN 框架

ARGN应用递归操作以建立全局连接，该连接建立了观测图像的空间记忆。

这种记忆机制能够识别与任务执行最相关的末端执行器位置。然而，递归计算本质上会遭受梯度消失问题，增加训练难度，并需要大量数据来缓解这一限制。

为解决此问题，我们提出了一种自适应衰减机制（AdaptiveDecayMechanism,ADM），以动态控制历史记忆衰减率，防止关键空间记忆的消失，并自适应地增强任务关键区域的权重。

第一阶段：

输入F0由空间混合模块处理，其中 ADM生成内容自适应衰减因子W来调节记忆保留。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AWE2026收官：AI“觉醒”前夜，谁在定义未来？

无论是石头的轮足机器人、追觅的仿生四足，还是宇树的人形机器人，它们不再是单纯的“替代者”，还是“会思考”的执行者，能让人从重复劳动中解脱出来，投入到更具创造性的生活之中。放眼全球，中国企业在这轮变革中的角色也在悄然变化，从曾经的产业链追随者，到跨场景生态构建的定义者，海尔、华为、追觅们正通过“人车家全域协同”和底层芯片、大模型的突破，为全球消费者提供关于未来生活的“中国方案”。相比之下，追觅展示的

DAMO开发者矩阵

收藏！小白程序员快速入门：AI Agent开发核心知识体系梳理

DAMO开发者矩阵

别再给OpenClaw交“智商税”了：这5个免费方案，能省下90%的钱

OpenClaw（原Clawdbot）最近在技术社区被频繁讨论，这款强大的AI Agent能让你的聊天机器人真正“干活”——处理文件、调用系统命令、执行自动化流程。然而随着它走红，市场上出现了大量“付费部署”、“付费插件”的服务，让很多人误以为使用OpenClaw门槛高、成本高。支持将PDF及图片（JPG/JPEG/PNG/BMP/TIFF/TIF/WEBP/JPEG2000）转换为Word、Ex