RoboAfford++：一个用于机器人操作和导航中多模态 Affordance 学习的生成式AI增强数据集

25年11月来自小米、中科院自动化所、清华、人大和合肥工大的论文“RoboAfford++: A Generative AI-Enhanced Dataset for Multimodal Affordance Learning in Robotic Manipulation and Navigation”。机器人操作和导航是具身智能的基本能力，使机器人能够与物理世界进行有效的交互。在操作中，预测

硅谷秋水

1221人浏览 · 2025-12-12 00:15:00

硅谷秋水 · 2025-12-12 00:15:00 发布

25年11月来自小米、中科院自动化所、清华、人大和合肥工大的论文“RoboAfford++: A Generative AI-Enhanced Dataset for Multimodal Affordance Learning in Robotic Manipulation and Navigation”。

机器人操作和导航是具身智能的基本能力，使机器人能够与物理世界进行有效的交互。在操作中，预测精确的交互位置对于抓取和放置物体至关重要。在导航中，找到目标并理解可通行空间对于安全移动至关重要。实现这些能力需要对环境有全面的理解，包括物体识别（用于定位目标物体）、物体affordance（用于识别潜交互区域）以及空间affordance（用于辨别物体放置和机器人移动的最佳区域）。虽然视觉-语言模型（VLM）在高级任务规划和场景理解方面表现出色，但它们通常难以推断用于物理交互的可操作位置，例如功能性抓取点和允许的放置区域。这种局限性源于其训练数据集中缺乏物体和空间affordance的细粒度标注。为了应对这一挑战，RoboAfford++，一个生成式人工智能增强数据集，用于多模态affordance学习，以支持机器人操作和导航。该数据集包含 869,987 张图像和 200 万条问答 (QA) 标注，涵盖三个关键任务：物体affordance识别（基于属性和空间关系识别目标物体）、物体affordance预测（精确定位可操作的功能部件）以及空间affordance定位（识别用于物体放置和机器人导航的可用空间）。作为该数据集的补充，RoboAfford-Eval，一个用于评估真实场景中affordance感知预测的综合基准测试，包含 338 个精心标注的样本，涵盖上述三个任务。大量的实验结果揭示现有VLM 在 affordance 学习方面的不足，而基于 RoboAfford++ 数据集的微调显著提升它们对物体和空间 affordance 的推理能力，验证了该数据集的有效性。

在机器人操作和导航中，视觉语言模型（VLM）需要根据语言指令定位目标物体或其部件，同时识别适合放置或移动的区域。这涉及三个核心能力：（1）物体affordance识别：基于类别、颜色、大小和空间关系等属性识别物体；（2）物体affordance预测：定位物体的功能部件以支持特定动作，例如抓取茶壶的把手；（3）空间affordance定位：检测场景中用于物体放置和机器人导航的空置区域，例如用于存放物品的货架空间。尽管近年来取得了一些进展[32]、[33]、[28]，但能够全面整合物体和空间affordance，并充分支持操作和导航任务的研究仍然相对较少。虽然一些VLM[32][33]能够通过坐标粗略定位物体或评估空间兼容性，但它们通常无法在部件级别进行精细定位，例如识别物体的功能组件。此外，这些模型专门针对操作任务进行训练，导致其应用范围狭窄，限制了它们在现实世界中各种操作和导航场景下的泛化能力。
为了应对这些挑战，RoboAfford++，一个由生成式人工智能增强的大规模数据集，包含密集且感知affordance的标注，用于机器人操作和导航。它包含 869,987 张图像和 200 万个问答对，统一物体和空间affordance，以支持跨两个域以交互为中心的学习。如图所示，RoboAfford++ 旨在为VLM提供具身交互所必需的affordance推理能力。该数据集使模型能够确定目标物体的位置，预测用于交互的部件级affordance，并识别用于放置和导航的空间affordance。
请添加图片描述

数据收集与筛选

如表所示，RoboAfford++ 数据集整合来自六个数据源的标注信息。通过将来自互联网的真实世界数据与仿真生成的合成数据相结合，创建一个多样化的数据集，用于建模物体和空间交互。该数据集包含三个主要部分：物体affordance识别、物体affordance 预测和空间affordance定位。
请添加图片描述

物体affordance识别。为了使视觉语言模型（VLM）具备通用的物体识别知识，利用 LVIS [54]，将其转换为具有边框坐标 (x1, y1, x2, y2) 的物体检测格式，以建立视觉参考。此外，还利用 Pixmo-Points 数据集 [55]，其中包含来自 22.3 万张图像的 230 万个点标注，以及来自 RoboPoint [32] 的 28.8 万张合成图像，用于物体参考学习。为了解决 Pixmo-Points [55] 中物体实例重复密集的问题，采用两步过滤流程：首先，为了简化训练，舍弃标注点数超过 10 个的标注；其次，用 GPT-4o [6] 仅保留相关的室内物体（例如家具、厨具），最终得到 63,907 张适用于物体指向的图像。

为了满足导航任务的需求，在 AI2Thor 模拟器 [57] 中构建 Navi-Afford 数据集，该数据集包含在 200 个室内环境中拍摄的 50,000 张以自我为中心的图像。数据采集过程首先随机选择可访问的位置，同时排除净空高度超过 1.5 米的区域。在每个位置，采集 RGB 图像以及实例分割掩码，并采样各种视角（0° 至 360° 随机旋转，以及 -15° 至 15° 水平旋转）。每张图像都附带元数据，例如可见物体的边框、它们的 3D 距离和 2D 坐标。然后，通过检测满足预定义邻近性标准（例如，水平距离大于 20 像素）的物体对来导出空间关系标注。对于每个有效的关系，在目标物体的边框内生成 4 到 8 个指向位置，形成“在 <目标物体> <关系> <参考物体> 上定位几个点”的指令。NaviAfford 数据集总共提供 50,000 个专为导航训练定制的affordance 样本。

物体affordance预测。对于物体affordance预测，利用 PACO-LVIS 数据集 [56] 提供用于推理的部件级标注。从 75 个物体类别和 200 个部件类别的 45,790 张图像中提取边框和部件分割掩码，并将它们转换为物体affordance的真实标签。这种结构化数据能够根据物体的affordance精确预测其交互方式。

空间affordance定位。为了进行空间affordance定位，从 RoboPoint [32] 获取区域参考数据，该数据集包含 27 万张图像，涵盖 8000 个实例和 262 个类别。每张图像包含一个或两个彩色边框来指示物体，其真实值被表示为一系列点 [(x1, y1), (x2, y2), …]，用于自由空间参考。将归一化坐标转换为绝对位置，并对每个答案最多采样十个点，从而优化空间任务的模型性能。

问答对生成

如图所示，为 RoboAfford++ 中的每个任务创建专门的问答生成流程。通过将收集的数据转换为感知affordance的问答，增强VLM与数据集的交互，使其能够学习和推理物体及其affordance之间的空间关系。
请添加图片描述

• 对于物体affordance识别，用 GPT-4o [6] 分析场景并过滤掉无关的室外图像。创建用于生成问答的模板，例如“指出图像中所有出现的位置”和“能在图像中看到任何吗？指出它们”，其中“”指的是来自 Pixmo-Points [55] 的真实标签。设计 28 个模板，并为每个物体指向问题随机选择一个模板。
• 对于物体affordance预测，通过向 GPT-4o [6] 提供图像、物体和部件类别以及真实标签边框来生成问答。针对完整物体的提问侧重于功能性，而不直接提及物体名称（例如，针对微波炉的提问是“什么电器可以用来快速加热食物？”）。针对物体部件的提问则要求识别部件（例如，针对刀柄的提问是“应该握住刀的哪个部分才能安全切割？”）。真实答案包含两种格式：（1）目标物体或部件的边框；（2）从真实分割掩码中采样的点。这种双重表示确保部件定位的准确性，并增强细粒度的物体affordance预测。
• 对于空间affordance定位，修改 RoboPoint [32] 的标注来生成问答。具体来说，将归一化坐标转换为绝对位置，以获得准确的真实世界物体尺度和空间关系。每个问题的真实点被重采样至最多十个，并且调整说明以确保答案格式的一致性。这种方法保留 RoboPoint [32] 中定义的空间关系，同时将其整合到统一的affordance框架中。

RoboAfford-Eval 基准测试

为了评估物体affordance识别和预测，用 Where2Place [32] 数据集中的图像，手动标注 114 个用于识别的问题和 124 个用于预测的问题。对于空间affordance，保留原始的 100 个问题，但将标注的affordance点从归一化坐标表示转换为绝对坐标表示。每个问题的真实值由一个或多个人工标注的多边形掩码组成，这些掩码对应于答案中的部件或实例。

对于每个预测点，检查它是否落在真实值掩码内。问题的准确率是正确定位的点与预测点总数的比值，总体准确率是所有问题的平均值。为了实施更严格的标准，对图像边界外的点进行惩罚，以鼓励模型更好地学习绝对交互位置。

框架。用 RoboAfford++ 数据集对名为 RoboAfford-Qwen++ 的模型进行微调。该模型采用多模态架构，包括视觉编码器、多层感知器 (MLP) 投影器、语言token化器和 Qwen2.5 大语言模型 (LLM)，具体结构参见文献 [8]，如图所示。视觉编码器从输入图像中提取视觉特征，并通过 MLP 投影器将其转换到与语言 token相同的嵌入空间。这些视觉嵌入与嵌入的文本指令连接起来，作为 LLM 的输入，用于跨模态的联合推理。
请添加图片描述

指令微调。采用基于 LLaVA-1.5 指令微调框架 [58] 的多阶段训练策略，该策略包含两个阶段：通用定位学习和对象空间affordance增强。第一阶段使用 LVIS [54] 和 Pixmo-Points [55] 数据集，共计 21.6 万张图像和 70.3 万个 QA 对，以增强基本的物体affordance识别能力。第二阶段整合 Object Reference [32]、NaviAfford、PACO-LVIS [56] 和 Region Reference [32] 数据集，共计 65.4 万张图像和 133 万个 QA 对，以优化物体affordance预测和空间affordance定位。这种多阶段方法使模型能够逐步发展分层affordance推理能力，从基本识别任务演进到高级预测任务。

实际机器人操作和导航。上图显示，经过微调的 RoboAfford-Qwen++ 可以有效地应用于下游机器人操作和导航。对于“拿起最左边的水果并将其放入最右边的篮子”这项任务，RoboAfford-Qwen++ 会预测目标物体对指定水果的affordance，以及篮子在可行放置位置的空间affordance。然后，预测的二维affordance点会被用作提示，通过 [59] 对目标物体进行分割，或者使用深度图将其转换为三维坐标，其中抓取姿态由 [60] 生成，用于机器人执行。

实现细节。RoboAfford-Qwen++ 模型使用预训练的 Qwen2.5-VL-7B-Instruct [65] 权重进行初始化，并按照 [66] 中描述的方法进行全参数监督微调。实验在八块 H100 GPU 上进行，使用 AdamW [67] 作为优化器，学习率为 10⁻⁵，训练周期为 1 个 epoch。每个设备处理的批大小为 4，梯度累积步数设置为 2。

基线模型。用提出的 RoboAfford-Eval 基准测试评估一系列最先进的 VLM 模型，包括闭源模型和开源模型。闭源模型包括 GPT-4o [6]、Claude-3.5-Sonnet [61]、Gemini-2.5-Flash [62] 和 Gemini-2.5-Pro [7]。开源模型涵盖了通用VLM，例如 LLaVA-Next [64]、Molmo [55]、Qwen2-VL [63] 和 Qwen2.5-VL [8]。还评估具有空间感知能力的开源 VLM，包括 SpaceMantis（SpatialVLM [48] 的社区实现）、RoboPoint [32] 和 RoboAfford-Qwen [28]。

评估指标。针对三个任务评估所提出的 RoboAfford-Eval 基准测试：物体affordance识别、物体affordance预测和空间affordance定位。使用的评估指标是准确率 (Acc)，定义为正确定位到真实掩码内的预测点数与预测点总数的比值。对于实际操作和导航，采用成功率 (SR)，定义为成功执行次数与总尝试次数的比值。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ESXi 8.0安装后网络不通？3步排查vSwitch/IP/VLAN，新手也能搞定

优先排查vSwitch是否绑定有效物理网卡，再核对vmkernel端口IP与网关、网段是否匹配，最后检查VLAN标签是否与物理网络一致。这三个步骤层层递进，覆盖了90%以上的网络不通场景，操作简单、逻辑清晰，新手只要跟着步骤排查、纠正错误，就能快速恢复网络连通。本文详细拆解了前期准备、分步排查、连通性测试、异常处理及常见误区，格式与之前ESXi系列教程保持一致，降低新手学习成本。

DAMO开发者矩阵

电商客服机器人选型实战：从知识库、转人工到自动解决率的能力对比

DAMO开发者矩阵

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。