击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

作者:倪俊锋 | 编辑:3D视觉工坊(授权首发)

你是否曾尝试用手机录一段视频或拍几张照片,想把眼前的精美房间或旅行美景永久定格在 3D 世界里?然而在传统技术下,这往往会遭遇“视角缺失”带来的严峻挑战:如果你没有全方位、无死角地拍摄,重建出来的场景通常布满黑洞般的空缺,或者在没拍到的地方出现奇怪的扭曲和重影。更糟糕的是,当拍照角度非常稀疏时,物体表面往往模糊得像打了马赛克。

近日,北京通用人工智能研究院联合清华大学、北京大学的研究团队在国际顶级人工智能会议 ICLR 上提出了一项名为 G4Splat 的重磅研究。其核心突破在于将视频扩散模型(Video Diffusion Models)的强大生成能力与精确的几何约束深度耦合。该技术不再盲目地生成像素,而是以底层几何结构为导向,在脑补缺失视角的图像时,强制要求不同视角下的内容在三维空间中保持严密的逻辑一致性。这种方案有效缓解了传统方法对多视角数据的过度依赖,显著抑制了重建过程中常见的空洞与扭曲现象,实现了在极稀疏输入下对高精度三维全景场景的稳健还原。

以下列出了这一突破性工作的相关资源:

论文链接:https://arxiv.org/abs/2510.12099

项目主页:https://dali-jack.github.io/g4splat-web/

代码仓库:https://github.com/DaLi-Jack/G4Splat

研究概述

图1. 重建结果对比、任意数量输入视角的重建展示

三维场景重建一直是计算机视觉领域的核心命题,旨在通过一组照片还原出真实世界的几何结构与细节纹理。近年来,以 3D 高斯泼溅(3DGS)为代表的技术凭借极快的渲染速度和照片级的还原效果,成为了该领域的新宠。然而,3DGS 极其依赖“全方位、无死角”的拍摄,一旦输入视角变得稀疏,模型就会在未观测区域产生严重的几何“空洞”,或者出现大量破碎的浮点和扭曲,无法生成连贯完整的场景。

现有的尝试利用生成式先验来补全场景的方法,虽然展现了一定的潜力,但仍面临两大技术瓶颈:一是几何失真,由于缺乏可靠的结构约束,生成内容往往缺乏真实的三维骨架支撑;二是多视角不一致性,不同视角下生成的图像难以在三维空间中逻辑自洽,导致重建结果在旋转观察时出现严重的闪烁和形变。

针对上述挑战,G4Splat提出了一套开创性的的解决方案。不同于以往将生成模型与重建算法简单叠加的思路,G4Splat 实现了精确几何引导与生成式先验的深度耦合。这种设计的核心在于赋予生成式先验一种“空间直觉”,使其在底层几何结构的严密约束下进行内容补全,从而在生成的“创造力”与重建的“忠实度”之间达成了精准平衡。

在具体实现上,G4Splat通过双重机制保障了重建的质量。首先,巧妙设计的几何约束机制确保了所有生成的细节都能准确附着在合理的物理表面上,显著抑制了漂浮伪影与几何形变。其次,针对多视角不一致的难题,G4Splat 引入了跨视角一致性强化策略,通过在三维空间内执行严密的几何对齐,实现了不同观测角度下的内容达成逻辑统一。这种设计不仅能高精度还原已知区域,更赋予了模型准确推断“视觉盲区”的强大能力。

通过这种“几何引导+生成先验”的双重驱动,G4Splat 打破了输入视角的限制,无论是面对单张照片,还是缺乏相机标定的随手拍视频,都能构建出结构完整、高保真的三维世界。 下面将深入解析G4Splat的核心技术细节。

关键技术

图2. G4Splat的算法框架

G4Splat的技术创新主要体现在以下三个关键方面:

  1. 全局平面对齐:传统的重建方法在面对稀疏视角时,往往只能得到碎片化的信息。G4Splat 引入了高效的全局平面对齐技术,它能够将各个视角捕捉到的 2D 平面掩码聚合成统一的 3D 全局平面。这一过程为场景构建了一套稳健的几何基准,使模型能够从宏观视角理解场景的结构布局,从而为后续“视觉盲区”的精准补全提供了可靠的几何支撑。

  2. 平面感知的深度提取:准确的深度估计是维持 3D 场景结构一致性的关键。G4Splat 利用已对齐的全局平面作为约束线索,开发了一套平面感知的深度提取机制。该机制不仅显著提升了已知观测区域的深度预测精度,更重要的是,它能将一致的尺度信息外推至未观测区域。通过这种方式,即便是在完全缺失影像的区域,G4Splat 也能推断出符合物理逻辑的深度映射,确保生成的 3D 模型具备严谨的几何结构。

  3. 几何引导的生成式管线:这是 G4Splat 实现高保真、高一致性重建的核心架构。为了克服生成模型常见的“过度想象”与视角冲突难题,我们构建了一套由几何信息引导的生成管线,具体包含以下三个协同模块:

  • 可靠的可见性建模:基于已有的几何骨架,系统能精准识别真实观测区域与缺失区域,从而实现针对性的信息增强与补全。

  • 平面感知的视角选择:在调用视频扩散模型进行补全时,该模块利用几何引导信息来评估并锁定最佳的“待补全视角”。其核心在于优先选择空洞覆盖率最大的关键方位,以最高效的覆盖范围修复大面积缺失。通过减少碎片化补全,确保了生成内容在全局空间上严丝合缝、高度统一。

  • 基于平面的颜色调节:针对多视角下的色彩不一致问题,G4Splat 巧妙地利用全局 3D 平面来调制颜色监督信号。该策略能有效调和不同视角间的色彩矛盾,显著减少因视角冲突导致的画面闪烁与重影。

图3. 关键技术的可视化消融对比

通过上述机制,G4Splat 巧妙平衡了生成模型的“创造力”与物理场景的“忠实度”,在极稀疏的视角输入下依然能还原出精细且逻辑自洽的 3D 完整场景。

实验结果

在涵盖室内外复杂场景的四大权威数据集(Replica, ScanNet++, DeepBlending, Mip-NeRF 360)上的系统性评估表明,G4Splat 在稀疏视角下的渲染质量与几何重建精度都实现了显著突破。

  1. 逼真的新视角合成:量化结果(表1)显示,G4Splat 在 PSNR、SSIM 和 LPIPS 等核心渲染指标上全面领先。尤其是在拍摄极度稀疏的情况下,传统方法往往会出现严重的图像崩坏,而 G4Splat 凭借几何引导的生成先验,依然能渲染出逼真的新视角图像。如图4所示,G4Splat 能够准确还原复杂的纹理细节,而对比方法则出现了明显的模糊和伪影。

  2. 高精度的几何重建:得益于全局平面对齐技术,G4Splat 能够精准推断出墙角、家具背面等未观测区域的几何形状。表1数据证实,G4Splat 在各项重建指标上均显著优于基线方法。如图4对比所示,基线方法在输入视角盲区往往产生破碎浮点或空洞,而 G4Splat 构建的几何表面更加平滑且连续。

  3. 任意视角输入的鲁棒性:G4Splat 展现了极强的普适性:无论是基于单张照片的深度想象(图5),还是利用稠密视角的精细还原(图6),其重建性能均保持稳健。这种从极稀疏采样到密集观测场景的跨尺度覆盖能力,证明了其在处理现实世界随意拍摄视频时的巨大实用价值。

表1. 场景重建结果的定量对比

图4. 场景重建结果的可视化对比

图5. 单视角输入的重建展示

图6. 密集视角输入的重建展示

应用展望

G4Splat 的意义不仅在于学术层面的指标突破,更在于它为三维内容的低门槛生成探索出了一条可行路径。通过几何引导与生成先验的深度融合,我们让 AI 像人类一样,既能清楚地“看”到眼前,也能准确地“想”到身后。在未来,无论是让机器人通过一眼观察就熟悉陌生的房间,还是让普通用户随手一拍就能生成可交互的虚拟空间,G4Splat 及其背后的技术范式都将成为构建更加智能、真实的数字世界的重要基石。

图7. 任意场景的重建普适性展示

团队介绍

研究团队由来自北京通用人工智能研究院(BIGAI)、清华大学和北京大学的跨学科研究者组成,致力于通用人工智能领域的前沿研究。团队成员在三维场景理解、重建和生成等方面,拥有丰富的研究经验。一作为清华大学博士生倪俊锋,其它作者为北京大学本科生杨知非、清华大学博士生刘宇、北京大学博士生陆睿杰;通讯作者为北京通用人工智能研究院研究员陈以新、北京通用人工智能研究院研究员黄思远;本项目由陈以新研究员主要指导。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等

图片图片图片图片

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐