文章概括

引用:

@article{huang2026pointworld,
  title={PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation},
  author={Huang, Wenlong and Chao, Yu-Wei and Mousavian, Arsalan and Liu, Ming-Yu and Fox, Dieter and Mo, Kaichun and Fei-Fei, Li},
  journal={arXiv preprint arXiv:2601.03782},
  year={2026}
}
Huang, W., Chao, Y.W., Mousavian, A., Liu, M.Y., Fox, D., Mo, K. and Fei-Fei, L., 2026. PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation. arXiv preprint arXiv:2601.03782.

主页: https://point-world.github.io/
原文: https://arxiv.org/pdf/2601.03782
代码、数据和视频: https://github.com/huangwl18/PointWorld

系列文章:
请在 《 《 文章 》 》 专栏中查找



宇宙声明!


引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!



ABSTRACT

人类仅凭一眼观察以及对自身动作的预想,便能够预测三维世界将如何作出响应,而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD,一个大规模预训练的三维世界模型,该模型将状态与动作统一表示在同一三维空间中,并以三维点流(3D point flows)的形式建模:在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下,POINTWORLD 能够预测每个像素在三维空间中的位移变化,以响应所给定的动作。通过将动作表示为三维点流,而非依赖于具体机器人本体的动作空间(例如关节位置),这种建模方式能够直接以机器人的物理几何结构为条件,同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型,我们构建了一个大规模数据集,涵盖开放世界环境中真实与仿真的机器人操作任务,这得益于近年来三维视觉与仿真环境的发展;该数据集共包含约 200 万条轨迹、500 小时的数据,涉及单臂 Franka 机器人和双臂人形机器人。通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究,我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度,POINTWORLD 可以高效地集成到模型预测控制(MPC)框架中,用于机器人操作任务。我们展示了,仅凭一个预训练模型权重,真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务,且无需任何示范数据或后续训练,全部仅基于一张在自然环境中拍摄的单幅图像。代码、数据集以及预训练模型权重将全部开源。


A. Appendix

A.1. Extended Discussions on Limitations

Static Initial State. 该模型以 RGB-D 点云以及有限时间范围内的机器人动作序列作为输入,并预测场景点将如何响应这些动作而发生运动。由于未提供任何先前帧或速度信息,该建模方式假设在观测瞬间世界处于静止状态。 若要支持完全动态的初始条件,则需要在输入中加入外部跟踪的轨迹信息或递归状态表示,这一方向留待未来研究。

它在说什么 模型只看“当前这一瞬间”的 RGB-D 点云 + 你接下来要做的动作序列,然后预测场景点怎么动。因为没有给它之前的帧(不知道刚才在怎么动)也没有速度信息,所以它默认:观测这一刻,世界是静止的

为什么会这样 如果你不给“过去”,单帧输入从信息论上很难分辨:

  • 物体是“本来就在运动”还是“被机器人推动才动”;
  • 一个点接下来动,是因为惯性/外力/别的主体,还是因为机器人动作。

什么时候会出问题(直观例子)

  • 传送带上物体本来就在滑动;
  • 有人手在旁边移动物体;
  • 门本来在自己回弹; 这种场景里,未来变化不完全由机器人动作决定。

可能怎么改 论文说的两条路:

  • 给它“外部跟踪的轨迹/速度”(比如多帧跟踪得到的速度);
  • 或者做成递归/记忆型状态(RNN/Transformer state),让模型自己“记住过去”。

Reward/Cost Specification for Action Inference. 在本工作中,我们通过将 POINTWORLD 与基于采样的规划器 MPPI [12] 集成,探索其在操作任务中的动作推断应用,该方法要求在同样的三维点流状态-动作空间中显式定义奖励或代价函数。 在本工作的范围内,我们仅采用手动方式定义奖励(例如,将一部分点移动至目标位置)。 未来工作可以考虑通过视觉语言模型 [145] 自动定义(单阶段或多阶段)奖励函数,或使用逆强化学习 [168] 从示范中推断奖励,同时将 POINTWORLD 保持为动力学模型。 除了基于规划的方法外,还可以通过强化学习 [65],将模型作为环境进行交互,从而学习参数化策略以实现动作推断。

它在说什么 他们把 PointWorld 接到 MPPI 这种采样规划器上,用模型去“想象未来”,然后在这些未来里挑动作。问题是:MPPI 必须有一个明确的奖励/代价函数,告诉它“什么未来更好”。在论文里,这个奖励目前主要靠人工手写,例如“让某一部分点移动到目标位置”。

为什么会这样 世界模型只负责“预测会发生什么”,但“你想要发生什么”是任务目标,需要一个可计算的指标(reward/cost)来评估每条动作序列。

什么时候会出问题

  • 任务复杂、目标多阶段(先绕开障碍,再抓取,再放置);
  • 目标难以用简单几何指标表达(比如“整齐”“安全”“像人一样”); 手写 reward 往往会变成“调参地狱”,还可能出现 reward hacking。

可能怎么改 他们提了两条未来方向:

  • 用视觉语言模型(VLM)自动把自然语言目标变成 reward;
  • 或用逆强化学习(IRL)从示范里学 reward; 另外也可以不用规划,改用强化学习直接学策略,把模型当环境交互。

Fine-Scale Objects and Calibration Noise. 对于细长或非常小的物体(例如笔或电缆),其三维标注具有挑战性:即便是轻微的深度或外参误差,也可能与物体厚度相当,从而在真实标注时导致机器人点与场景点之间的分离模糊不清。 在这种情况下,真实点流中的配准误差会传递至训练过程,可能导致模型混淆夹爪与邻近场景点之间的重叠运动。 改进标定与深度估计方法有助于增强对这些细粒度交互的监督质量。

它在说什么 对“很细/很小”的物体(笔、电缆)做 3D 标注很难:一点点深度误差或外参误差,就可能和物体的“厚度”一个量级。结果就是:真实数据里你以为“夹爪点”和“物体点”分开了,但其实因为误差混在一起,导致真实点流(ground truth flow)里出现配准误差,训练时模型就可能把“夹爪运动”和“旁边场景点的运动”搞混。

为什么会这样 细物体的几何尺度太小,传感器/标定的误差占比变大,监督标签噪声变成“主导因素”。

什么时候会出问题

  • 线缆拨动、捏细小零件、拿笔、插拔薄片; 你会看到预测中“夹爪附近一片点一起滑”,模型分不清真实接触关系。

可能怎么改 改进深度估计与相机-机器人外参标定,提升 3D 监督质量(本质是:让 ground truth 更准)。

Correlation vs. Causation. 在给定一个观测上下文帧和一系列机器人动作的情况下,POINTWORLD 被训练用于预测后续的场景状态序列。 因此,它主要捕捉的是训练数据分布中机器人动作、机器人运动与场景演化之间的相关关系。 在存在外部因素(例如其他主体或机器人无法控制的环境变化)影响未来演化的场景中,这些影响在数据中与机器人引起的效应相互交织,并未被分离为独立的因果机制。 因此,我们的实验评估的是在已观测到的动作条件分布下的预测精度与规划性能,而非声称恢复环境的底层因果结构。

它在说什么 PointWorld 训练目标是:给定观测 + 动作序列,预测未来状态序列。所以它最擅长捕捉的是数据里“动作/机器人运动/场景变化”之间的统计相关。如果未来变化里混入了机器人控制不了的外因(别人碰、风吹、系统漂移),这些外因在数据里和机器人造成的效应“纠缠在一起”,模型并没有学到“独立的因果机制”。因此作者强调:他们评估的是在训练数据覆盖的动作分布条件下的预测与规划性能,而不是在宣称“恢复了环境因果结构”。

一句人话版 模型更像“见得多所以会猜”,而不是“真正理解了世界的因果规律”。

Lack of Photometric Dynamics. POINTWORLD 仅输出基于 RGB-D 输入所捕获三维点的位移,侧重于几何与物理交互,而非外观变化。 尽管在点云形式下可视化时通常具有视觉合理性,但若希望推理机器人动作引发的环境光度变化(例如灯光或屏幕的开关),该模型仍然不足。 对于需要考虑光度动态变化的任务,可能需要将 POINTWORLD 与预测辐射亮度的外观模型相结合,例如 Gaussian Splatting [40] 或 Neural Radiance Fields [39]。

它在说什么 PointWorld 输出的是 3D 点的位移(几何/物理交互),不负责预测颜色、亮度、材质外观怎么变。所以像“灯开关、屏幕内容变化”这种主要体现为光度变化的任务,它做不了。作者说如果任务需要这种能力,可能要把它和能预测辐射亮度/外观的模型结合,比如 NeRF 或 Gaussian Splatting。

直观例子

  • 你按下按钮:屏幕从黑变亮——几何几乎不动,但视觉变化巨大; PointWorld 只会说“点没怎么动”,却不知道“画面变了”。

Rigid-Body Robot Assumption. 机器人形态被表示为由刚性连杆构成的运动学树结构,并通过正向运动学传播一组固定的机器人表面点。 该表示忽略了软体结构、腱驱动或柔性结构(例如鳍状夹爪)的形变,以及机器人本体的非刚性效应。 因此,POINTWORLD 仅推理场景如何响应预测的机器人几何形态发生变化,而不考虑接触如何改变机器人本身的形态。 若扩展表示以包含可变形连杆 [169],则可以进一步推理接触如何改变机器人本体形态,以及这些形变如何反过来影响接触几何。

它在说什么 他们用“刚性连杆的运动学树 + 正向运动学”生成一组固定的机器人表面点,来表示机器人并生成机器人点流。这样默认机器人各部件是刚性的。于是:

  • 软体结构、腱驱动手指、柔性夹爪那种“会变形”的机器人本体变化被忽略;
  • 模型只能推理“环境怎么响应机器人几何运动”,不能推理“接触反过来把机器人挤变形”。

什么时候会出问题 软夹爪抓海绵、腱驱动手指受力弯曲、柔性末端执行器贴合物体等。

可能怎么改 把机器人表示扩展到可变形连杆/可变形结构,让模型同时推理“机器人形变 ↔ 接触几何 ↔ 环境响应”。

Actuation and Tracking Assumptions. 我们的方法将机器人轨迹视为已知且完全实现的关节配置序列,并通过正向运动学生成机器人点流。 因此,POINTWORLD 实际上建模的是“若机器人按照该路径运动,环境将如何响应”,而非“在特定控制器、执行限制或接触引发的跟踪误差下,机器人是否以及如何真正实现该路径”。 这种准静态、纯运动学视角的动作表示在欠驱动或柔性关节(例如腱驱动或柔性手指),或在强接触、负载变化或控制器改变引发较大跟踪误差的情况下可能失效。 将方法扩展为同时建模机器人与场景动力学是未来的重要研究方向。

它在说什么 他们把机器人轨迹当成“已知且会被完全实现”的关节序列,用正向运动学直接得到机器人点流。换句话说,模型回答的是:

如果机器人真的按这条轨迹走了,环境会怎样?
而不是:
在真实控制器、摩擦、负载、强接触导致的偏差下,机器人到底能不能这样走、会走成什么样?

什么时候会出问题

  • 强接触推挤导致关节跟踪误差大;
  • 欠驱动/柔性关节(腱驱动)控制不精确;
  • 负载变化让轨迹偏离; 这时“计划的轨迹”≠“实际轨迹”,模型用错了前提。

可能怎么改 把问题从“纯运动学”升级到“机器人 + 场景的联合动力学”,同时建模执行与接触带来的偏差(更难,但更真实)。

Lack of Explicit Physics Priors. 当前方法完全基于数据驱动,并未引入显式物理先验(如牛顿力学或守恒定律约束),以便专注于研究在不依赖物体性或材料物理属性先验的情况下扩展三维世界模型。 尽管如此,我们观察到 POINTWORLD 仅通过数据便能捕捉刚体、关节与可变形行为的多种特性。 引入物理约束正则化或混合仿真器 [35] 可能进一步提升泛化与外推能力,尤其是在能够采集域内交互数据以精确重建场景或物体(不仅包括几何结构,也包括物理参数)的情况下。

它在说什么 他们故意不把牛顿力学、守恒定律、不可穿透等“硬物理规则”写进模型里,而是完全靠数据学习,目的是研究“不依赖物体材料/物性先验也能否扩展 3D
世界模型”。作者说:即便如此,模型也能从数据里学到不少刚体/关节/可变形行为的统计规律;但如果加入物理约束正则化或混合仿真器,可能进一步提升泛化与外推能力,特别是当你能在域内采集足够交互数据并重建几何+物理参数时。([arXiv][1])

一句人话版 它像“经验派”,学得很灵活,但遇到数据没见过的极端情况,可能不如“带物理规则的模型”稳。

A.2. DROID 3D Annotation Pipeline

DROID [7] 是一个大规模机器人操作数据集,其中包含通过人工遥操作采集的交互数据,使用一台腕部安装相机以及两台外部安装相机(随机分布在工作空间左右两侧)进行采集。 我们使用所有具有原始相机数据流的 DROID 任务片段,无论任务成功或失败,因为三维世界建模仅依赖于观测到的交互过程,而不依赖具体任务结果。 每个任务片段都提供三台相机的双目 RGB 数据流及其真实相机内参,同时包含机器人关节状态以及已知的机器人运动学模型。 在本工作中,我们使用从两台外部安装相机恢复得到的三维场景点流。 所有数据共享同步时间戳。 我们扩展了机器人模型,使其包含 Robotiq 2F-85 夹爪以及 DROID 标准配置中使用的定制相机支架。 对于每个场景,处理流程首先将时间戳对齐到参考数据流(使用二分搜索寻找最近时间点),将数据下采样至原来的一半,然后依次执行:(i)稠密度量深度估计;(ii)通过将渲染的机器人网格与观测深度对齐来优化外部相机外参;(iii)在工作空间与机器人掩码下进行二维点跟踪;(iv)三维轨迹重建、切分与后处理。 需要注意的是,我们并未存储机器人点流,因为在已知机器人 URDF 模型和关节动作的情况下,这些点流可以在训练或推理阶段高效重建。

A.2.1. Depth Estimation

每个视角的度量深度通过高质量的双目估计器 FoundationStereo [9] 获得。 需要指出的是,与典型的传感器深度不同,FoundationStereo 估计的深度不受最小有效深度阈值限制。 然而,仍然观察到其在远距离、尤其是无纹理区域(例如墙面)上的深度估计可能不够准确。 因此,我们将深度值限制在可信区间 [0, 4] 米内,并生成逐像素有效性掩码,该掩码随后传播至三维点,作为每个点的深度有效标记。

A.2.2. Camera Pose Estimation

这段在做的事很明确:用“腕部相机(随机器人运动)当作标定靶”,把两台外部相机的外参(相对于机器人基座 B B B的位姿)先粗略求出来,再交给后面的深度对齐优化去精修。 他们之所以不直接用数据集自带外参,是因为像DROID这类跨场地采集的数据里,手工/一次性标定的外参经常不够准。

我们不使用数据集中提供的相机外参。 相反,我们采用两阶段方法计算相机外参,该方法利用前述通过 FoundationStereo 获得的精确度量深度。 首先,我们使用 VGGT [10] 初始化相机位姿估计。 其次,我们利用记录的机器人关节状态,通过将渲染的机器人几何模型与观测深度对齐,对两台外部相机在所有时间步的位姿进行联合优化。

0) 先把符号翻成人话:这些 T T T到底表示什么?

他们用的是机器人/视觉里最常见的记号:

  • T A ← B ∈ S E ( 3 ) T_{A\leftarrow B}\in\mathrm{SE}(3) TABSE(3)表示把在坐标系 B B B里表达的3D点,变换到坐标系 A A A
  • 用齐次坐标写就是: p A = T A ← B p B p_A=T_{A\leftarrow B}p_B pA=TABpB

你关心的目标是:对每台外部相机 C i C_i Ci,估计一个常量外参 T C i ← B T_{C_i\leftarrow B} TCiB(机器人基座 B B B→相机 C i C_i Ci),并假设整段任务过程中不变。这个“外参不变”符合DROID平台:外部相机固定在桌面/支架上,机器人在同一基座坐标系下工作。

1) 为什么要分“两阶段”?FoundationStereo在里面干嘛?

他们说“用FoundationStereo得到精确的度量深度”,然后做两阶段:

  1. 初始化:用VGGT从多视角图像里先估一个“相机相对位姿关系”(粗的)。
  2. 精修:利用机器人关节状态+渲染的机器人几何,把渲染深度和观测深度对齐,对两台外部相机做联合优化(细的)。

FoundationStereo是一个零样本泛化很强的立体深度模型,能给更可靠的metric depth,这样后面“渲染深度↔观测深度”的对齐目标才会有意义、梯度也更干净。 你这条问题主要是初始化(Camera Pose Initialization)到底怎么做,下面只讲初始化这段。

2) 初始化的核心思路(一句话)

用VGGT估出“腕部相机 W t W_t Wt相对于参考外部相机 E 0 E_0 E0的位姿”,再用机器人正向运动学算出“腕部相机 W t W_t Wt相对于基座 B B B的位姿”,两者一乘,就得到“参考外部相机 E 0 E_0 E0相对于基座 B B B的位姿”。 然后再把其他外部相机也转到基座坐标系里。 这其实就是一个“链式坐标变换闭环”: B → W t → E 0 B\rightarrow W_t\rightarrow E_0 BWtE0

Camera Pose Initialization 我们的目标是为每个外部安装的相机 C i C_i Ci 估计一个刚性变换 T C i ← B ∈ SE ( 3 ) T_{C_{i} \leftarrow B} \in \text{SE}(3) TCiBSE(3),该变换将三维点从机器人基座坐标系 B B B 映射到相机坐标系,并在整个 DROID 任务过程中保持不变。 我们用 B B B 表示机器人基座坐标系,用 W t W_t Wt 表示时间 t t t 时刻的腕部相机坐标系,用 C i C_i Ci 表示外部相机。 我们将多视角位姿估计器 VGGT [10] 应用于两台外部相机和腕部相机的时间对齐图像;该方法将初始时间步的第一台外部相机设为参考坐标系,并返回刚性变换 T E 0 ← C i T_{E_0 \leftarrow C_i} TE0Ci T E 0 ← W t T_{E_0 \leftarrow W_t} TE0Wt,用于将每个相机 C i C_i Ci W t W_t Wt 中的点映射到参考坐标系 E 0 E_0 E0。 同时,对机器人关节状态应用正向运动学可以获得夹爪在基座坐标系中的位姿 T G t ← B T_{G_t \leftarrow B} TGtB。 对于每一台物理机器人(由记录的机器人序列号确定),我们假设腕部相机相对于末端执行器刚性安装,并在所有任务过程中保持不变。 我们通过实验发现,该假设对 DROID 使用的机器人基本成立,因为不同任务中估计得到的平均变换之间的对齐误差达到亚毫米级。 在该假设下,我们可以为每台机器人获得一个已知的夹爪到腕部相机的变换 T W ← G T_{W \leftarrow G} TWG。 利用该变换以及正向运动学模型,我们可以得到腕部相机在基座坐标系中的时间变化位姿:

T W t ← B = T W ← G T G t ← B . T_{W_t \leftarrow B} = T_{W \leftarrow G} T_{G_t \leftarrow B}. TWtB=TWGTGtB.

将该结果与估计器提供的腕部相机到参考外部相机的变换结合,可以得到参考外部相机在基座坐标系中的逐帧估计:

T E 0 ← B ( t ) = T E 0 ← W t T W t ← B . T^{(t)}_{E_0 \leftarrow B} = T_{E_0 \leftarrow W_t} T_{W_t \leftarrow B}. TE0B(t)=TE0WtTWtB.

我们对所有有效腕部帧的估计结果进行平均,从而获得一个统一的 T E 0 ← B T_{E_0 \leftarrow B} TE0B。 对于任意其他外部相机 C i C_i Ci,估计器会提供相对于参考相机的变换 T E 0 ← C i T_{E_0 \leftarrow C_i} TE0Ci。 我们将其转换为基座坐标系下的外参:

T C i ← B = T C i ← E 0 T E 0 ← B , T C i ← E 0 = T E 0 ← C i − 1 , T_{C_i \leftarrow B} = T_{C_i \leftarrow E_0} T_{E_0 \leftarrow B}, \quad T_{C_i \leftarrow E_0} = T^{-1}_{E_0 \leftarrow C_i}, TCiB=TCiE0TE0B,TCiE0=TE0Ci1,

从而在精细优化阶段之前,使所有外部相机都表示在统一的机器人基座坐标系中。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐