【论文自动阅读】AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipu
提出名为AOMGen的框架,仅通过单份真实场景扫描数据、操作演示数据及同类别关节式物体数字资产库,生成照片级真实且物理规律一致的关节式物体操作演示数据,用于微调视觉-语言-动作(VLA)模型,将其操作成功率从0%提升至88.7%,且能应对未见过的物体和布局。
·
快速了解部分
基础信息(英文):
- 题目:AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipulation
- 时间年月:2025.12
- 机构名:未明确提及
- 3个英文关键词:Articulated Object Manipulation、Photoreal Demonstration Generation、Physics-Consistent Data Synthesis
1句话通俗总结本文干了什么事情
提出名为AOMGen的框架,仅通过单份真实场景扫描数据、操作演示数据及同类别关节式物体数字资产库,生成照片级真实且物理规律一致的关节式物体操作演示数据,用于微调视觉-语言-动作(VLA)模型,将其操作成功率从0%提升至88.7%,且能应对未见过的物体和布局。
研究痛点:现有研究不足 / 要解决的具体问题
- 真实世界关节式物体操作数据采集成本高、耗时久,场景覆盖有限,难以满足VLA模型对高质量数据的需求;
- 物理仿真平台(如Isaac Gym)虽能高效生成数据,但视觉真实感远低于真实场景,导致Sim-to-Real(仿真到真实)迁移困难;
- 视频驱动世界模型(如Dreamgen)视觉保真度高,但对物理真实性和动作可执行性的监督不足,易产生不符合物理规律的交互;
- 现有演示生成方法(如DemoGen、R2RGen)仅能处理简单抓取/放置任务,无法应对精细关节式操作,且物体外观/几何固定、仅支持单视角输入,泛化性差。
核心方法:关键技术、模型或研究设计(简要)
AOMGen包含两大核心模块:
- 场景重建与运动恢复:基于3D高斯 splatting(3DGS)重建真实操作场景,分割场景中高斯点并对齐至真实世界坐标系,以机器人轨迹为物理先验,恢复机器人臂与关节式物体的物理一致运动;
- 关节式物体替换与姿态泛化:建立原物体与同类别新物体的关节参数(关节配置、尺寸、初始姿态)映射,迁移原场景光照与材质至新物体,支持新物体任意姿态调整,生成多样化演示数据。
深入了解部分
相比前人创新在哪里
- 数据生成效率与泛化性突破:首次实现从“单份真实数据”生成“同类别任意关节式物体”的操作演示数据,无需针对每个物体重新采集数据,大幅提升 scalability;
- 兼顾视觉与物理真实性:既通过3DGS重建、光照材质迁移实现照片级视觉效果,又通过机器人轨迹监督、接触点检测确保物理交互符合规律,解决“视觉真实但物理失真”或“物理合规但视觉粗糙”的矛盾;
- 支持精细关节操作与多视角输出:突破前人仅能处理简单抓取的局限,可应对旋转关节(如微波炉门)、移动关节(如抽屉)的精细操作,同时生成时间同步的多视角RGB数据,提升视觉全面性;
- 姿态与尺度泛化能力:支持新物体任意姿态调整(平移、旋转)和尺度变化(0.6-0.9倍),扩展数据多样性,帮助VLA模型应对更多真实场景变化。
解决方法/算法的通俗解释,以及具体做法
通俗解释
把真实的关节式物体操作场景“数字化重建”,再“复制”这个操作逻辑到同类别其他物体上,同时保证新生成的操作画面像照片一样真实、动作符合物理规律,最后用这些数据让机器人操作模型学得更好。
具体做法
-
场景重建与运动恢复(模块1):
- 场景重建:用COLMAP获取场景稀疏重建与相机姿态,基于3DGS构建稠密场景模型;通过SAGA技术给每个高斯点附加特征,结合SAM2分割出关节物体各部分(可动部分/固定部分)和机器人臂;
- 坐标对齐:采样机器人URDF模型表面点云,用ICP算法将3DGS场景坐标系与真实世界坐标系对齐,确保数据一致性;
- 运动恢复:机器人臂运动通过“正运动学”计算各关节在不同时间的旋转矩阵实现恢复;关节物体运动通过AOMotion模块实现——用SAM2分割动态掩码并计算“运动评分”提取关键帧,找机器人与物体的最近点作为接触点,通过边缘评分确定关节中心与方向,最后以接触点轨迹为监督,优化物体可动部分的运动参数。
-
关节式物体替换与姿态泛化(模块2):
- 物理交互适配:借鉴NOCS方法将原物体与新物体的可动部分点云归一化,映射接触点位置;分两阶段优化新物体几何参数(尺度、初始姿态、偏移),确保与机器人轨迹的物理交互合理;
- 视觉增强:用DiffusionLight提取原场景光照,在Blender中将光照烘焙到新物体材质上;通过高斯修复填补物体替换产生的“视觉漏洞”;
- 姿态泛化:将机器人轨迹按关键帧分为三段,对物体姿态调整后的轨迹用“线性插值”(平移)和“球面线性插值”(旋转)生成新轨迹,再通过逆运动学计算对应关节角度。
基于前人的哪些方法
- 3D场景重建与编辑:3D Gaussian Splatting(3DGS)用于高效重建真实场景;SAGA技术用于3DGS点云分割;Gaussian Inpainting用于修复视觉漏洞;Mesh2splat用于将新物体USD模型转换为3DGS格式;
- 分割与姿态估计:SAM2用于2D掩码分割(物体可动部分、机器人臂);ICP算法用于坐标系对齐;
- 光照与材质迁移:DiffusionLight用于提取真实场景光照;
- 关节物体与机器人操作:ArtVIP提供同类别关节式物体数字资产;正运动学/逆运动学用于机器人臂轨迹计算;NOCS启发的接触点映射方法;
- 模型微调与评估:LoRA技术用于VLA模型(π₀.₅、OpenVLA)微调;IsaacSim作为仿真平台验证物理一致性。
实验设置、数据、评估方式
实验设置
- 硬件与软件:训练用NVIDIA RTX4090 GPU;仿真平台为IsaacSim;微调模型采用π₀.₅(30K训练步、batch size=16、学习率5×10⁻⁵、AdamW优化器、梯度裁剪1.0)和OpenVLA(50K训练步、LoRA rank=32);
- 数据采集:用Universal Robot UR5e机械臂(带2F85夹爪)采集真实操作演示;移动设备扫描静态场景,固定相机拍摄操作过程的RGB图像;
- 测试物体:从ArtVIP选取5种关节式物体——3种旋转关节(微波炉、工具箱、电脑)、2种移动关节(抽屉、柜子);
- 泛化参数:物体平移范围[-0.05m, 0.3m]×[-0.05m, 0.05m],旋转范围[-45°, 45°];尺度泛化测试为0.6-0.9倍原尺寸。
数据
- 每种替换物体生成50个“仅姿态变化”的演示数据;
- 尺度泛化测试中,每种尺度配置重复20次实验;
- Unseen物体测试中,用“单物体数据”和“混合多物体数据”分别微调模型,各测试20次。
评估方式
- 物理一致性验证:在IsaacSim中复现生成数据的机器人轨迹与物体姿态,统计任务完成成功率(SR);
- VLA模型性能评估:对比“无微调模型”“50个AOMGen数据微调模型”“150个AOMGen数据微调模型”的操作成功率;
- 泛化能力评估:测试模型在“尺度变化物体”“未见过的同类别物体”上的成功率。
提到的同类工作
- 物理仿真平台:Genesis(通用物理引擎)、Isaac Gym(GPU高性能物理仿真)、Re3sim(3D真实感Real-to-Sim)、RoboGS(物理一致的机器人3DGS模型);
- 视频驱动世界模型:Dreamgen(视频世界模型提升泛化)、Robodreamer(组合式世界模型)、Unified World Models(耦合视频与动作扩散)、ORV(4D占用感知机器人视频生成);
- 操作数据生成方法:MimicGen(重配置演示数据)、Genaug(生成式数据增强)、DemoGen(合成机器人操作演示)、R2RGen(Real-to-Real 3D数据生成)、RobotSplat(3DGS生成新演示);
- 3DGS相关方法:SAGA(3D高斯点分割)、GaussianEditor(3D高斯编辑)、3D Gaussian Inpainting(3D高斯修复)、Mesh2splat(网格转3D高斯);
- 关节物体建模:ArtVIP(关节式物体数字资产库)、VideoArtGS(单目视频构建关节物体数字孪生)、Sm3(多视角图像自监督关节物体建模)。
和本文相关性最高的3个文献
- Xue et al., 2025. DemoGen:前序演示生成工作,可合成机器人操作演示,但仅支持简单抓取/放置,无法处理精细关节式操作,且物体外观固定、单视角输入,是AOMGen重点改进的对象;
- Yang et al., 2025. RobotSplat:首个用3DGS生成机器人操作演示的方法,但无法泛化到关节式物体的操作数据生成,AOMGen在其3DGS技术基础上,补充了关节建模与运动迁移能力;
- Kim et al., 2024. OpenVLA:主流开源VLA模型,本文将其作为基准模型之一,用AOMGen生成的数据进行微调并验证性能提升,是本文实验的核心对比基准。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)