暴虐COLMAP和MASt3R！全新开源Spars3R：稀疏3D重建SOTA！无限接近真值！

计算机视觉工坊

860人浏览 · 2025-01-06 17:39:54

计算机视觉工坊 · 2025-01-06 17:39:54 发布

0. 论文信息

标题：SPARS3R: Semantic Prior Alignment and Regularization for Sparse 3D Reconstruction

作者：Yutao Tang, Yuxiang Guo, Deming Li, Cheng Peng

机构：Johns Hopkins University

原文链接：https://arxiv.org/abs/2411.12592

代码链接：https://github.com/snldmt/SPARS3R

1. 导读

最近在基于高斯-Splat的新视图合成中的努力可以实现照片级真实感渲染；然而，由于稀疏初始化和过度适应浮动，这种能力在稀疏视图场景中受到限制。深度估计和对准方面的最新进展可以提供具有少量视图的密集点云；然而，由此产生的姿态精度是次优的。在这项工作中，我们提出了SPARS3R，它结合了从运动结构精确估计姿态和从深度估计密集点云的优点。为此，SPARS3R首先执行全局融合对准过程，该过程基于三角对应将先前密集点云映射到来自运动结构的稀疏点云。RANSAC在此过程中用于区分内点和外点。然后，SPARS3R执行第二步，语义离群点对齐步骤，该步骤提取离群点周围的语义一致区域，并在这些区域中执行局部对齐。随着评估过程中的一些改进，我们证明了SPARS3R可以实现稀疏图像的真实感渲染，并明显优于现有的方法。

2. 引言

从非摆拍（非预设姿态）的二维图像中进行逼真的场景重建和新视角合成（Novel View Synthesis, NVS）是一项具有挑战性的任务，它在场地建模、自动驾驶、机器人技术、城市和农业规划等多个领域有着广泛的应用。神经辐射场（Neural Radiance Field, NeRF）和三维高斯溅射（3D Gaussian Splatting, 3DGS）等方法的引入，基于密集多视图影像，在渲染质量和效率方面取得了显著进步。然而，这些方法在实际应用场景中，尤其是场景无法被密集覆盖的情况下，仍然面临问题。

给定稀疏图像时，在NVS中过度拟合光度目标到错误几何体是一个常见问题。为了改进NeRF，已经引入了各种约束，如语义一致性损失、深度和新视角正则化、频率正则化和光线熵最小化。这些方法由于光线追踪中的昂贵补丁渲染，往往导致显著的计算开销。最近，基于高斯溅射的方法通过利用显式表示和快速可微分光栅化，进一步改进了稀疏NVS。为了约束和引导场景结构，已经提出了深度正则化、高斯浮点修剪和基于邻近性的高斯加密策略。尽管几何体有所改善，但这些方法往往会在背景中产生过于平滑的渲染效果。这个问题可以归因于初始点云的稀疏性，尤其是在背景区域。此外，基于单目深度先验等附加约束往往不完善，导致噪声梯度，从而阻碍了稀疏区域的适当加密。

解决这一难题的一个潜在方案是使用更密集的点云来初始化高斯优化，以帮助区分形状和辐射度。为此，双视图深度估计领域的最新进展，特别是DUSt3R和MASt3R，已经展示了从预训练先验模型中构建密集点云的强大能力。理论上，这样的点云可以直接用于优化高斯溅射辐射场。然而，在实践中，由于准确深度图估计的困难，从多视图深度对齐获得的相机校准往往不是最优的。如果不进行校正，高斯优化过程将生成浮点数以补偿次优校准，从而需要采取防止加密的权宜之计。相比之下，基于运动恢复结构（Structure-from-Motion, SfM）的相机校准，如COLMAP，在适当的特征匹配模型下既快速又准确。SfM不是对齐密集深度，而是采用可靠的对应关系，并使用RANSAC进行三角测量以排除异常值。在稀疏视图设置中，可以重复此过程多次以进一步提高准确性。

为了解决稀疏视图NVS中的稀疏点云初始化和姿态不准确问题，我们提出了SPARS3R。SPARS3R由两个阶段组成：全局融合对齐和语义异常值对齐。在全局融合对齐阶段，SPARS3R首先通过DUSt3R或MASt3R从稀疏视图中获得密集点云，并通过COLMAP获得稀疏点云。通过获取图像内的三角对应关系，SPARS3R通过带有RANSAC的全局普鲁克斯特对齐过程，将密集点云融合到稀疏点云上。由于局部尺度变化，一些点会产生较大误差，因此引入了第二个语义对齐过程。具体来说，通过交互式分割模型（如SAM）识别和提示全局融合对齐中的异常值。由此产生的语义掩码指示密集点云中需要进行局部对齐的区域。将这些区域转换到SfM点云后，我们获得了一个密集且姿态准确的点云，作为高斯优化的强先验。

3. 效果展示

SPAS3R与现有SOTA的可视化比较。在没有额外预处理的情况下，稀疏的NVS通过Instant-NGP生成了精确的几何图形。FSGS由于稀疏初始化和致密化不足，可能会变得模糊。InstantSplat依赖于DUSt3R用次操作姿势进行初始化。我们的方法SPARS3R可以用精确的姿势可靠地在前景和背景中渲染细节。

4. 主要贡献

我们的贡献可以概括为：

我们提出了一种全局融合对齐方法，该方法将先验密集点云转换到参考SfM稀疏点云上，将密集初始化和准确相机姿态置于同一坐标系中。

为了解决由于深度差异而无法准确对齐的异常值问题，我们提出了语义异常值对齐步骤。该步骤提取异常值周围的语义相似区域进行局部对齐，从而得到一个具有最小变换误差的密集点云。

我们在三个流行的基准数据集上评估了整体方法SPARS3R，并与当前最先进的（State-of-The-Art, SoTA）方法相比，发现了显著的定量和视觉改进。

5. 方法

如图2所示，SPARS3R建立在DUSt3R和MASt3R的进展之上，作为稀疏视图重建的预训练三维先验。首先，SPARS3R基于图像对应关系（来自MASt3R或其他特征匹配方法）执行SfM。然后，SPARS3R通过两个阶段（全局融合对齐和语义异常值对齐）的刚体变换，对齐MASt3R产生的密集点云。

6. 实验结果

我们在表4中对SPARS3R与各种NVS方法进行了定量比较。即时NGP和3DGS是基于隐式和显式场景表示的两种主流NVS方法。具体来说，3DGS利用从注册中获取的SfM点作为场景优化的起点，而NeRF基于方法仅依赖于姿势。Colmap-Free3DGS它也不依赖于预先注册，并且在重建的同时优化了相机。我们发现，Instant-NGP和CF-3DGS的表现明显比其他使用预先SfM点云的算法差。

7. 总结 & 未来工作

我们介绍了SPARS3R、场景重建和NVS。可以用稀疏实现高质量渲染的方法输入图像。我们证明了现有方法能够引导tc。由于稀疏点云初始化导致渲染模糊。重新在从之前生成密集点云方面取得进展深度估计模型虽然很有前途，但可能导致噪声姿势估计。为了解决这些问题，SPARS3R结合了二者的优点，提出了一种两步对齐方法。第一步计算深度先验点云与参考SfM点云之间的全局变换矩阵。第二步使用第一步中的异常点语义区域进行连续的局部对齐。这种方法成功地解决了先验密集点云中的深度估计误差，并表明更新的点云在稀疏视图NVS中具有显著更好的性能。我们还对评估过程进行了几项改进，以更好地代表稀疏视图注册和重建中的实际限制。未来，我们希望进一步改进我们的对齐过程的平滑性，例如通过探索潜在的非刚性转换方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AI五大门派的底牌、命门与终极赌局

作为一个面向Web的动态3D高斯泼溅（3DGS）渲染器，Spark与当前最流行的Web3D框架Three.js集成，并基于Web GL2运行，因此只要有浏览器，无论是桌面端、iOS、Android，还是VR设备，都可以使用。比如Skild AI，它的核心产品“Skild Brain”，作为统一的机器人基础模型，其目标是让同一个“大脑”能够控制任何形态的机器人，无论是四足机器人、人形机器人还是桌面机