论文笔记（一百一十五）Physically Embodied Gaussian Splatting: ... 3D Representation for Robotics （二）

本文提出了一种新型的“高斯-粒子”双重表示方法，用于机器人对物理世界的建模与交互。该方法结合了基于粒子的物理仿真与三维高斯泼溅渲染技术，通过视觉观测实时修正预测状态，实现了几何、物理与视觉的统一表征。实验验证表明，该系统在二维/三维目标跟踪和光度重建任务中表现良好，并展示了物理先验对提升状态预测准确性的关键作用。相关代码和视频已开源，为机器人感知与决策提供了新的解决方案。

墨绿色的摆渡人

360人浏览 · 2025-12-27 18:32:44

墨绿色的摆渡人 · 2025-12-27 18:32:44 发布

Physically Embodied Gaussian Splatting: A Visually Learnt and Physically Grounded 3D Representation for Robotics

文章概括
ABSTRACT
A Experimental Setup
B Implementation
C Ablations
D Failure Modes
E Design Choices
F Experimental Results

文章概括

引用：

@inproceedings{abou2024physically,
  title={Physically embodied gaussian splatting: A visually learnt and physically grounded 3d representation for robotics},
  author={Abou-Chakra, Jad and Rana, Krishan and Dayoub, Feras and Suenderhauf, Niko},
  booktitle={8th Annual Conference on Robot Learning},
  year={2024}
}

Abou-Chakra, J., Rana, K., Dayoub, F. and Suenderhauf, N., 2024. Physically embodied gaussian splatting: A visually learnt and physically grounded 3d representation for robotics. In 8th Annual Conference on Robot Learning.

主页：
原文：
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

宇宙声明！

引用解析部分属于自我理解补充，如有错误可以评论讨论然后改正！

ABSTRACT

为了使机器人能够稳健地理解并与物理世界交互，拥有一种综合性的表示方式是极其有益的——该表示方式同时建模几何结构、物理规律以及视觉观测，并为感知、规划和控制算法提供信息支持。我们提出了一种新颖的双重“Gaussian-Particle（高斯–粒子）”表示来建模物理世界，该表示方式同时能够
（i）对未来状态进行预测性仿真，以及
（ii）在动态环境中根据视觉观测进行在线修正。

我们的表示由粒子（particles）构成，这些粒子用于刻画世界中物体的几何属性，并且可以与基于粒子的物理系统结合使用，以预测物理上合理的未来状态。附着在这些粒子上的，是用于表示视觉状态的三维高斯（3D Gaussians），它们通过splatting（泼溅）过程从任意视角渲染图像，从而刻画系统的视觉状态。通过比较预测图像与实际观测图像，我们的方法生成一种称为**“视觉力（visual forces）”的信号，在遵循已知物理约束**的前提下，对粒子的位置进行修正。通过将预测性的物理建模与连续的、由视觉驱动的修正机制相结合，我们的统一表示能够在推理当前状态与未来状态的同时，与真实世界保持同步。我们在二维与三维目标跟踪任务以及光度重建质量方面对该方法进行了验证。相关视频可见：https://embodied-gaussians.github.io/ 。

A Experimental Setup

真实世界实验使用补充材料图 1（Supp. Figure 1）所示的桌面装置进行。中文
该装置使用一台 Franka Emika 机器人，并配备两种末端执行器：用于拾取场景的标准夹爪，以及用于其他场景的推杆（pusher）。桌面与机器人由五个摄像头进行观测：三台 Intel RealSense D455 摄像头以及两台 D435 摄像头。这些摄像头通过一种手眼标定（hand-eye calibration）技术进行联合标定。在系统运行时，五个摄像头全部用于系统初始化。但在预测与校正阶段，仅使用三台 D455 摄像头。在所有场景中，机器人通过遥操作（teleoperation）来操控桌面上的物体。数据集通过记录摄像头的图像流并将其编码为 HEVC 视频来采集。这些视频被缩放至 640×360 的分辨率，并在评估时进行实时解码，以模拟实时运行。此外，在录制过程中还会对机器人的关节位置进行时间戳标记并保存，并在评估时进行回放。

在这里插入图片描述补充图 1：真实实验所使用的桌面装置，展示了机器人、场景中使用的部分物体，以及所使用的 5 个摄像头的位置。

B Implementation

系统遵循一个两阶段流程：初始化以及预测/校正。在初始化阶段，会为场景中每个检测到的物体生成粒子和高斯。随后，系统进入预测与校正阶段，其中粒子通过 Position-Based Dynamics（PBD）物理系统进行仿真，而校正力则基于附着在粒子上的高斯进行计算。本节将详细说明各阶段的实现细节与参数设置。

Static Scene Initialization 桌面使用场景中的 5 个 RGBD 摄像头进行建模，并采用标准的高斯泼溅技术。然而，为避免对放置在桌面上的物体产生干扰，高斯被初始化为薄圆盘形状。此外，利用桌面的点云数据来计算地平面。高斯通过 Adam 优化器训练 500 步，其中位置学习率为 $1\mathrm{e}^{-4}$ ，颜色学习率为 $2.5\mathrm{e}^{-3}$ ，尺度学习率为 $1\mathrm{e}^{-3}$ ，不透明度学习率为 $1\mathrm{e}^{-2}$ ，旋转学习率为 $1\mathrm{e}^{-3}$ 。尺度被限制在 1 mm 到 1 cm 之间。

Robot Initialization 机器人的粒子通过 Blender 手动拟合到各个连杆上。记录每个粒子所属的连杆信息，以便使用正向运动学来正确更新其位置。此外，从多个视角在 Blender 中对机器人进行渲染，并训练高斯以重建这些渲染结果。随后，将这些高斯绑定到机器人上最近的粒子。粒子、高斯及其连接键的组合在每个场景开始时被插入系统。用于训练静态场景的参数同样适用于机器人。

Object Initialization 对于每个物体，其三维包围盒由从深度图与实例掩码中提取的点云计算得到。初始化过程如算法 1 所述。我们设置 $n = 80$ ， $m = 250$ 。除真实绳索与仿真绳索分别设置为 0.2 kg 和 0.3 kg 外，其余所有粒子的质量均初始化为 0.1 kg。粒子质量越大，视觉力的影响越小。粒子质量同时充当物理惯性和视觉惯性。若未来需要更精细的调节，这两种惯性可以被解耦。在涉及绳索的场景中，由于绳索在图像中占据的像素较少，且其可变形性使物理先验约束较弱，校正力相较于大型刚体不够可靠。我们通过增加视觉惯性来补偿校正力中增加的噪声。需要注意的是，算法 1 会对每个物体重复执行。未来的工作可以选择并行构建所有物体而非顺序构建，以减少初始化总时长。在当前实现中，物体建模大约需要 20–40 秒；考虑到该过程每个场景只需执行一次，我们认为这一耗时是可接受的。

在这里插入图片描述

Prediction Step 在每个时间步中，使用 PBD 物理系统来预测粒子与高斯的位置。该系统以 30 Hz 的固定频率运行（每步 33.33 ms）。物理仿真步骤如算法 2 所述。我们使用 20 个子步。在每个子步中，首先对速度和力进行积分，然后使用 Jacobi 求解器求解约束。采用 4 次 Jacobi 迭代以充分求解物理约束。在每个物理仿真步之后，将粒子速度乘以 0.9（经验设定值）。该阻尼有助于提升系统稳定性。

在这里插入图片描述

Correction Step 在校正阶段，使用算法 1来计算视觉力。高斯位移通过 5 次 Adam 优化迭代计算得到。高斯的尺度保持固定，而其位置、旋转、不透明度和颜色允许发生变化。在每一个新的物理仿真步开始时，Adam 的内部参数都会被重置。为提升稳定性，小于 2 mm 的高斯位移将被忽略。位置学习率根据场景设置在 $1\mathrm{e}^{-3}$ 到 $3\mathrm{e}^{-3}$ 之间；旋转、颜色与不透明度的学习率分别设置为 $1\mathrm{e}^{-4}$ 、 $5\mathrm{e}^{-4}$ 和 $5\mathrm{e}^{-4}$ 。允许颜色、不透明度与旋转发生变化，使系统能够通过更多方式解释由光照变化引起的现象，而非将其错误归因于高斯的运动。在所有场景中均使用 $K_p=60$ 。

在这里插入图片描述

预测与校正步骤的性能分析见补充图 2（Supp. Figure 2）。

在这里插入图片描述补充图 2：对预测与校正阶段中调用的各个函数进行的性能分析。在 “Other” 阶段中，系统绘制 GUI 并读取新的传感器观测。物理仿真步骤耗时约 5 ms，随后是约 22 ms 的 Adam 优化，用于计算视觉力。

C Ablations

Physical Priors 我们通过模拟一个包含两个物体的场景来评估系统中嵌入的物理先验的有效性，如补充图 3 所示，并在补充图 5 中进行了总结。这些场景突出了引入不同物理约束后系统性能的提升方式：（i）当启用所有物理先验时，系统能够准确捕捉物体的动态行为，包括碰撞以及与环境的交互。（ii）当忽略粒子之间的碰撞约束时，物体状态会偏离真实值，尤其是在剧烈的碰撞事件（碰撞 2 和 3）中尤为明显。（iii）禁用地平面与重力会导致物体运动出现持续振荡，因为其运动不再受到合理约束。（iv）即便保留地平面，仅禁用重力也会导致类似的振荡行为，因为物体不再受到预期的向下力。通过引入物理先验，系统能够获得更接近真实状态的预测结果。

在这里插入图片描述补充图 3：消融实验，展示了不同物理先验对桌面上两个物体中 12 个点的三维跟踪误差的影响。该消融实验使用的场景为仿真数据集中的 “Multiple1”。结果表明，使用全部物理先验在时间上平均产生最低的跟踪误差。

在这里插入图片描述

补充图 4 对以下因素进行了消融实验：
（i）用于计算视觉力的摄像头数量；
（ii）用于重建损失的图像分辨率；
（iii）视觉增益的影响；
（iv）高斯位置学习率；
（v）Adam 优化器的迭代次数。

在这里插入图片描述

整个轨迹上的平均跟踪误差同样在补充图 5 中给出。

Cameras 消融实验表明，在我们的框架下，增加摄像头数量的收益呈现递减趋势。我们观察到，更高的图像分辨率通常会带来更低的跟踪误差。然而，在 1280×720、640×360 和 320×180 之间，性能差异仅为轻微。 1280×720 的分辨率会带来显著的计算开销，其视觉力计算耗时约 40 ms，而较低分辨率仅需约 20 ms。当分辨率低于 640×360 时，性能瓶颈已不再由分辨率决定，因此无法获得进一步性能提升。基于上述原因，我们选择 640×360 作为计算视觉力时使用的图像分辨率。

Visual Forces 我们的框架利用视觉力来生成所需的校正动作，以保持 Gaussian–Particle 表示的一致性。这种机制能够产生平滑的校正，但若调参不当，也会引入动态振荡效应。这些振荡类似于无阻尼弹簧系统的行为。未来的工作可通过在视觉力计算中引入微分项来消除该振荡效应。在本工作中，我们通过调参在可接受的振荡幅度与跟踪能力之间取得平衡。补充图 4 的消融实验表明，较高的增益（和/或较高的高斯位置学习率）会产生明显振荡，而较低的增益（和/或较低的学习率）则会对跟踪性能产生不利影响。 Adam 优化的迭代次数选择以满足实时性约束为准。消融实验表明，当物理时间步耗时超出预期时，可以通过减少 Adam 迭代次数进行权衡，而不会对世界模型整体同步性造成显著影响。

Initialization 我们通过将初始化方法与使用 Blender 手动建模的粒子位置进行比较来评估其效果。我们将这种手动初始化称为 “oracle” 初始化，因为它利用已知的物体网格来人工构建粒子模型。在补充图 6 中展示了 oracle 初始化与我们方法初始化的对比示例。我们分别使用 oracle 初始化以及本文提出的初始化方案来评估系统的跟踪性能。表 1 中的结果表明，我们的自动初始化方法在性能上可与 oracle 初始化相当。

在这里插入图片描述

D Failure Modes

Gaussian–Particle 表示在多种情况下可能会偏离真实状态。如果场景的渲染状态与真实图像存在显著差异，则视觉力将无法产生有效的校正。

此外，如果物理建模与真实世界中的物理行为存在较大差异，物理先验将对系统的跟踪性能产生负面影响。这一问题可在补充图 7 的真实场景 “Pushover 5” 中观察到：其中一个 T 形积木无法被推倒，从而超出了视觉力的收敛半径。
在这里插入图片描述

在某些情况下，物体的纹理与几何形状同时存在歧义。在仿真场景 “Rope 1” 中，绳索可以绕其自身主轴旋转，而不会影响几何形状或纹理，从而导致轻微的稳态误差。

E Design Choices

该表示的主要优势在于：它能够以快于实时的速度进行前向仿真，并以实时速度利用视觉观测进行校正。因此，我们的设计选择主要由降低预测与校正阶段计算开销这一需求所驱动。

尽管 Position-Based Dynamics（PBD）在物理精度上不及其他模拟器，我们仍选择它，因为其具备更优的实时性能与稳定性。此外，我们选择高斯泼溅而非其他可微渲染技术，是因为它是目前速度最快的可微渲染器。

采用视觉力进行状态校正的决定同样源于降低计算需求的考虑。尽管其他方法（例如在粒子与高斯之间引入额外的形状匹配约束）也可使高斯影响粒子位置，但这些方法在计算上比我们的方法更加昂贵。这些方法需要在每个 PBD 子步中多次求解约束，并将物理系统与校正系统耦合，使物理循环的性能依赖于场景中高斯的数量。相比之下，我们的方法采用的视觉力实现简单、运行快速，并且在预测系统与校正系统之间保持了清晰的分离。

F Experimental Results

我们系统在所有场景下的三维跟踪性能如补充图 8 所示。

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

元控制在动态环境适应中的应用研究

在当今复杂多变的动态环境中，许多系统需要具备自适应能力以维持高效、稳定的运行。元控制作为一种高级控制策略，为系统在动态环境下的适应提供了新的思路和方法。本文的目的在于全面研究元控制在动态环境适应中的应用，涵盖元控制的基本概念、算法原理、数学模型，通过实际案例展示其应用效果，并分析其未来发展趋势和挑战。范围涉及控制理论、人工智能、机器人技术等多个领域，旨在为相关研究和实践提供有价值的参考。本文将按照

DAMO开发者矩阵

【TextIn大模型加速器 + 火山引擎】赋能机器人行业分析与VLA研究

DAMO开发者矩阵

2025年小目标检测技术全面总结：从理论突破到工业应用

2025年小目标检测技术取得显著突破，但仍面临特征稀缺、尺度不匹配等核心挑战。研究聚焦多尺度特征融合、注意力机制和频域特征挖掘，YOLO系列和Transformer-CNN混合架构展现出优异性能。领域专用方案在遥感、无人机和医疗影像检测中表现突出。未来将向轻量化、多模态融合方向发展，但极端密集场景适配和速度-精度平衡仍是难题。该技术为自动驾驶、医疗诊断等关键领域提供了重要支持。