展示了RoboTidy基准的整体框架,涵盖导航、物体分类和操作三大模块
在具身智能(Embodied AI)的研究中,一个核心挑战在于如何让智能体在复杂的物理世界中执行长程、多步的任务。家庭整理(Household Tidying)作为一项典型的应用场景,对机器人的感知、推理、导航和操作能力提出了综合性要求。然而,当前的研究缺乏一个统一的、高保真的评测基准来全面评估机器人在这一任务上的“视觉-语言-动作”(Vision-Language-Action, VLA)与“视觉-语言-导航”(Vision-Language-Navigation, VLN)的综合能力。

为应对此挑战,来自香港大学、华中科技大学及原力无限等机构的研究团队共同提出了 RoboTidy。这是首个基于3D高斯溅射(3D Gaussian Splatting, 3DGS)技术构建的、用于家庭整理任务的统一基准。该基准不仅包含了500个照片级逼真的交互式3D场景和大规模专家演示数据集,还通过真实的机器人实验验证了其在模拟到现实(Sim-to-Real)迁移任务中的有效性,显著提升了物理机器人的任务成功率。

论文基本信息

论文标题: RoboTidy : A 3D Gaussian Splatting Household Tidying Benchmark for Embodied Navigation and Action
论文链接: https://nvlabs.github.io/SONIC/
项目地址: https://github.com/MarketSquare/robotframework-tidy

01. 超越传统网格:具身智能仿真为何需要3DGS

长期以来,具身智能研究依赖于基于传统3D网格(Mesh)的仿真器,如Habitat和AI2-THOR。这些仿真器虽然渲染速度快,但在视觉保真度上存在天然缺陷,难以复现真实世界复杂的光影、材质和纹理细节。在这种低保真环境下训练的策略,部署到现实中时往往因“现实差距”(Sim-to-Real Gap)而表现不佳。

RoboTidy的核心创新之一是引入了3D高斯溅射(3DGS)技术。相较于计算成本高昂的神经辐射场(NeRF)和几何表现生硬的Mesh,3DGS能够在保证高渲染速度的同时,重建出照片级逼真的场景。

研究团队通过手持设备扫描了500个真实的家庭环境,并利用3DGS技术将其高保真地“克隆”到仿真环境中。这意味着,在RoboTidy中训练的智能体,其视觉输入不再是简化的几何体和色块,而是包含真实光照、物体反光和材质细节的高度写实图像。这种高保真度为训练出能够泛化至真实世界的鲁棒视觉编码器提供了坚实基础。

展示了用于Sim2Real实验的真实世界工作台,其复杂的视觉细节对仿真环境的保真度提出了高要求

02. 标准化整理任务:基于规则与数据的分层控制

“整理房间”对于机器人而言,是一个涉及目标识别、语义理解、常识推理和长程规划的复杂任务。机器人不仅要识别物体,还需要理解其应有的空间归属,例如“杯子应放在橱柜里,而非椅子上”。

RoboTidy将这一复杂任务形式化、标准化。
首先,它提出将整理任务定义为一个**“Action (Object, Container)”列表**。系统通过视觉语言大模型(VLM),如Qwen2.5-VL,解析多视角观测,自动推理出无序物体的正确归属容器,并生成操作指令。

为支持模型训练,RoboTidy提供了一个大规模、高质量的专家演示数据集,具体包括:

  • 500个3DGS家庭场景,覆盖客厅、卧室、厨房等多种布局。
  • 6400条操作演示轨迹1500条导航演示轨迹

这些数据详细记录了从物体识别、抓取规划到放置决策的完整行为链条。基于此,研究者可以开发分层控制框架,将任务分解为高层的“语义规划”和底层的“操作策略”,从而让机器人学习类似人类的整理逻辑。

清晰描绘了物体分类(Object Sorting)的流程:从观测中识别物体和容器,生成“Action (Object, Container)”列表,并由系统执行

03. 从仿真到现实:Sim-to-Real的有效性验证

仿真的最终价值在于其能否有效迁移并赋能物理世界。原力无限的研究团队在该项目中重点攻克了Sim-to-Real迁移的技术难题。

论文中的真实机器人实验有力地证明了RoboTidy的价值。实验在一个搭载双臂的移动操作平台上进行,对比了三种训练策略:仅使用真实世界数据、仅使用RoboTidy仿真数据(Zero-Shot)、以及混合使用仿真与真实数据(Few-Shot)。

实验结果(如论文Table 7所示)表明,在多目标整理任务中,仅使用50条真实世界演示的策略成功整理了12个物体中的5个;而加入了100条RoboTidy仿真演示后,成功数提升至8个。更值得注意的是,即使在Zero-Shot设定下(仅使用100条仿真数据训练),策略的成功数也达到了4个,与使用50条真实数据训练的策略表现相当。

这一结果表明,在RoboTidy高保真环境中训练的策略,能够有效泛化至真实世界,尤其在面对未见过的物体和复杂背景时,表现出优越的鲁棒性。

展示了在真实机器人上的单步操作任务成功率。与仅使用真实世界数据(50 Real)相比,混合了仿真数据(50 Real + 100 RoboTidy)的策略在各项任务上均有显著提升

04. 开源基准:建立行业统一的评测标尺

在RoboTidy发布之前,家庭整理任务缺乏一个统一的、可信的评测标准,不同研究的成果难以进行横向比较。RoboTidy通过提供标准化的评测体系,旨在成为该领域的通用“标尺”。

其贡献包括:

  • 统一的API接口:方便开发者快速接入和评测自己的算法。
  • 多维度的评测指标:不仅评估任务成功率,还引入了更细致的指标来量化策略表现。

核心评测指标公式:

  1. 物体放置准确率 (Object Placement Accuracy, OPA): 衡量模型为物体选择正确容器的能力。
    OPA(s)=C(s)N(s),OPA=1∣S∣∑s∈SOPA(s) \text{OPA}(s) = \frac{C(s)}{N(s)}, \quad \text{OPA} = \frac{1}{|S|} \sum_{s \in S} \text{OPA}(s) OPA(s)=N(s)C(s),OPA=S1sSOPA(s)
    其中,sss 代表一个场景,SSS 为所有场景的集合,N(s)N(s)N(s) 是场景中物体的总数,C(s)C(s)C(s) 是被放置到正确容器的物体数量。

  2. 有效整理成功率 (Valid Sorting Success Rate, VSSR): 衡量端到端任务的成功率,要求不仅容器选择正确,而且所有必需的机器人动作(如抓取、放置)也成功完成。
    VSSR(s)=1N(s)∑j=1N(s)vj(s),VSSR=1∣S∣∑s∈SVSSR(s) \text{VSSR}(s) = \frac{1}{N(s)} \sum_{j=1}^{N(s)} v_j(s), \quad \text{VSSR} = \frac{1}{|S|} \sum_{s \in S} \text{VSSR}(s) VSSR(s)=N(s)1j=1N(s)vj(s),VSSR=S1sSVSSR(s)
    其中,vj(s)=1v_j(s) = 1vj(s)=1 当且仅当物体 jjj 的容器选择正确且动作执行成功。

通过开源基准,研究团队希望在一个更真实、更标准化的平台上,集结全球开发者的力量,共同推动具身智能技术的发展。

结语

RoboTidy的发布标志着具身智能研究范式的一次重要演进:从追求算法的迭代,转向算法与环境协同发展。通过引入3DGS技术,RoboTidy构建了前所未有的高保真仿真环境,并通过严谨的Sim-to-Real实验证明了其对于提升物理机器人能力的直接价值。

学术界与产业界的深度融合,正在加速将前沿算法转化为真实世界的生产力。随着RoboTidy的代码和数据集逐步开放,具身智能领域将在一个更坚实的基座上,迎来新的发展机遇。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐