快速了解部分

基础信息(英文):

  1. 题目:AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation
  2. 时间年月:2025.12
  3. 机构名:未明确提及
  4. 3个英文关键词:Articulated Object Manipulation、Photoreal Demonstration Generation、Physics-Consistent Data Synthesis

1句话通俗总结本文干了什么事情

提出名为AOMGen的框架,仅通过单份真实场景扫描数据、操作演示数据及同类别关节式物体数字资产库,生成照片级真实且物理规律一致的关节式物体操作演示数据,用于微调视觉-语言-动作(VLA)模型,将其操作成功率从0%提升至88.7%,且能应对未见过的物体和布局。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 真实世界关节式物体操作数据采集成本高、耗时久,场景覆盖有限,难以满足VLA模型对高质量数据的需求;
  2. 物理仿真平台(如Isaac Gym)虽能高效生成数据,但视觉真实感远低于真实场景,导致Sim-to-Real(仿真到真实)迁移困难;
  3. 视频驱动世界模型(如Dreamgen)视觉保真度高,但对物理真实性和动作可执行性的监督不足,易产生不符合物理规律的交互;
  4. 现有演示生成方法(如DemoGen、R2RGen)仅能处理简单抓取/放置任务,无法应对精细关节式操作,且物体外观/几何固定、仅支持单视角输入,泛化性差。

核心方法:关键技术、模型或研究设计(简要)

AOMGen包含两大核心模块:

  1. 场景重建与运动恢复:基于3D高斯 splatting(3DGS)重建真实操作场景,分割场景中高斯点并对齐至真实世界坐标系,以机器人轨迹为物理先验,恢复机器人臂与关节式物体的物理一致运动;
  2. 关节式物体替换与姿态泛化:建立原物体与同类别新物体的关节参数(关节配置、尺寸、初始姿态)映射,迁移原场景光照与材质至新物体,支持新物体任意姿态调整,生成多样化演示数据。

深入了解部分

相比前人创新在哪里

  1. 数据生成效率与泛化性突破:首次实现从“单份真实数据”生成“同类别任意关节式物体”的操作演示数据,无需针对每个物体重新采集数据,大幅提升 scalability;
  2. 兼顾视觉与物理真实性:既通过3DGS重建、光照材质迁移实现照片级视觉效果,又通过机器人轨迹监督、接触点检测确保物理交互符合规律,解决“视觉真实但物理失真”或“物理合规但视觉粗糙”的矛盾;
  3. 支持精细关节操作与多视角输出:突破前人仅能处理简单抓取的局限,可应对旋转关节(如微波炉门)、移动关节(如抽屉)的精细操作,同时生成时间同步的多视角RGB数据,提升视觉全面性;
  4. 姿态与尺度泛化能力:支持新物体任意姿态调整(平移、旋转)和尺度变化(0.6-0.9倍),扩展数据多样性,帮助VLA模型应对更多真实场景变化。

解决方法/算法的通俗解释,以及具体做法

通俗解释

把真实的关节式物体操作场景“数字化重建”,再“复制”这个操作逻辑到同类别其他物体上,同时保证新生成的操作画面像照片一样真实、动作符合物理规律,最后用这些数据让机器人操作模型学得更好。

具体做法

  1. 场景重建与运动恢复(模块1)

    • 场景重建:用COLMAP获取场景稀疏重建与相机姿态,基于3DGS构建稠密场景模型;通过SAGA技术给每个高斯点附加特征,结合SAM2分割出关节物体各部分(可动部分/固定部分)和机器人臂;
    • 坐标对齐:采样机器人URDF模型表面点云,用ICP算法将3DGS场景坐标系与真实世界坐标系对齐,确保数据一致性;
    • 运动恢复:机器人臂运动通过“正运动学”计算各关节在不同时间的旋转矩阵实现恢复;关节物体运动通过AOMotion模块实现——用SAM2分割动态掩码并计算“运动评分”提取关键帧,找机器人与物体的最近点作为接触点,通过边缘评分确定关节中心与方向,最后以接触点轨迹为监督,优化物体可动部分的运动参数。
  2. 关节式物体替换与姿态泛化(模块2)

    • 物理交互适配:借鉴NOCS方法将原物体与新物体的可动部分点云归一化,映射接触点位置;分两阶段优化新物体几何参数(尺度、初始姿态、偏移),确保与机器人轨迹的物理交互合理;
    • 视觉增强:用DiffusionLight提取原场景光照,在Blender中将光照烘焙到新物体材质上;通过高斯修复填补物体替换产生的“视觉漏洞”;
    • 姿态泛化:将机器人轨迹按关键帧分为三段,对物体姿态调整后的轨迹用“线性插值”(平移)和“球面线性插值”(旋转)生成新轨迹,再通过逆运动学计算对应关节角度。

基于前人的哪些方法

  1. 3D场景重建与编辑:3D Gaussian Splatting(3DGS)用于高效重建真实场景;SAGA技术用于3DGS点云分割;Gaussian Inpainting用于修复视觉漏洞;Mesh2splat用于将新物体USD模型转换为3DGS格式;
  2. 分割与姿态估计:SAM2用于2D掩码分割(物体可动部分、机器人臂);ICP算法用于坐标系对齐;
  3. 光照与材质迁移:DiffusionLight用于提取真实场景光照;
  4. 关节物体与机器人操作:ArtVIP提供同类别关节式物体数字资产;正运动学/逆运动学用于机器人臂轨迹计算;NOCS启发的接触点映射方法;
  5. 模型微调与评估:LoRA技术用于VLA模型(π₀.₅、OpenVLA)微调;IsaacSim作为仿真平台验证物理一致性。

实验设置、数据、评估方式

实验设置

  1. 硬件与软件:训练用NVIDIA RTX4090 GPU;仿真平台为IsaacSim;微调模型采用π₀.₅(30K训练步、batch size=16、学习率5×10⁻⁵、AdamW优化器、梯度裁剪1.0)和OpenVLA(50K训练步、LoRA rank=32);
  2. 数据采集:用Universal Robot UR5e机械臂(带2F85夹爪)采集真实操作演示;移动设备扫描静态场景,固定相机拍摄操作过程的RGB图像;
  3. 测试物体:从ArtVIP选取5种关节式物体——3种旋转关节(微波炉、工具箱、电脑)、2种移动关节(抽屉、柜子);
  4. 泛化参数:物体平移范围[-0.05m, 0.3m]×[-0.05m, 0.05m],旋转范围[-45°, 45°];尺度泛化测试为0.6-0.9倍原尺寸。

数据

  1. 每种替换物体生成50个“仅姿态变化”的演示数据;
  2. 尺度泛化测试中,每种尺度配置重复20次实验;
  3. Unseen物体测试中,用“单物体数据”和“混合多物体数据”分别微调模型,各测试20次。

评估方式

  1. 物理一致性验证:在IsaacSim中复现生成数据的机器人轨迹与物体姿态,统计任务完成成功率(SR);
  2. VLA模型性能评估:对比“无微调模型”“50个AOMGen数据微调模型”“150个AOMGen数据微调模型”的操作成功率;
  3. 泛化能力评估:测试模型在“尺度变化物体”“未见过的同类别物体”上的成功率。

提到的同类工作

  1. 物理仿真平台:Genesis(通用物理引擎)、Isaac Gym(GPU高性能物理仿真)、Re3sim(3D真实感Real-to-Sim)、RoboGS(物理一致的机器人3DGS模型);
  2. 视频驱动世界模型:Dreamgen(视频世界模型提升泛化)、Robodreamer(组合式世界模型)、Unified World Models(耦合视频与动作扩散)、ORV(4D占用感知机器人视频生成);
  3. 操作数据生成方法:MimicGen(重配置演示数据)、Genaug(生成式数据增强)、DemoGen(合成机器人操作演示)、R2RGen(Real-to-Real 3D数据生成)、RobotSplat(3DGS生成新演示);
  4. 3DGS相关方法:SAGA(3D高斯点分割)、GaussianEditor(3D高斯编辑)、3D Gaussian Inpainting(3D高斯修复)、Mesh2splat(网格转3D高斯);
  5. 关节物体建模:ArtVIP(关节式物体数字资产库)、VideoArtGS(单目视频构建关节物体数字孪生)、Sm3(多视角图像自监督关节物体建模)。

和本文相关性最高的3个文献

  1. Xue et al., 2025. DemoGen:前序演示生成工作,可合成机器人操作演示,但仅支持简单抓取/放置,无法处理精细关节式操作,且物体外观固定、单视角输入,是AOMGen重点改进的对象;
  2. Yang et al., 2025. RobotSplat:首个用3DGS生成机器人操作演示的方法,但无法泛化到关节式物体的操作数据生成,AOMGen在其3DGS技术基础上,补充了关节建模与运动迁移能力;
  3. Kim et al., 2024. OpenVLA:主流开源VLA模型,本文将其作为基准模型之一,用AOMGen生成的数据进行微调并验证性能提升,是本文实验的核心对比基准。
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐