基本信息

题目:Recent advances in 3D Gaussian splatting

来源:Computational Visual Media 2024

学校:中国科学院计算技术研究所

是否开源:无

摘要:三维高斯喷溅(3DGS)的出现极大加速了新颖视图合成中的渲染。与神经隐式表示如神经辐射场(NeRF)通过位置和视点条件神经网络表示三维场景不同,三维高斯泼溅利用一组高斯椭球体来建模场景,从而通过光栅化高斯椭球体实现高效渲染。除了快速渲染,3D高斯溅射的显式表示还促进了动态重建、几何编辑和物理仿真等后续任务。鉴于该领域的快速变化和日益增长的工作,我们介绍了近期三维高斯喷溅方法的文献综述,这些方法可按功能大致分为三维重建、三维编辑及其他下游应用。还涵盖了传统的基于点的渲染方法以及三维高斯喷溅的渲染表述,以帮助理解该技术。本综述旨在帮助初学者快速入门该领域,并为有经验的研究者提供全面的概述,旨在激发三维高斯喷溅表示的未来发展。

1 Introduction

        论文引言部分首先指出,随着虚拟现实(VR)和增强现实(AR)的快速发展,对真实感强的 3D 内容需求日益增加。传统的 3D 内容创建方法主要有两种:

  • 3D 重建:从扫描仪数据或多视图图像进行重建,但由于捕获不完美和相机参数估计噪声,往往结果不够逼真。
  • 3D 建模:使用专业软件手动建模,能产生高真实感内容,但需要专业训练、耗时且交互繁琐。

为了自动创建真实 3D 内容,Neural Radiance Fields (NeRF) [1] 出现了。它使用密度场(density field)表示几何,颜色场(color field)表示外观,极大提升了新型视图合成(novel view synthesis)的质量。但 NeRF 的训练和渲染速度慢。

后续工作 [2–4] 试图加速 NeRF,使其能在手机或笔记本等普通设备上运行,但仍难以实现:在消费级 GPU 上训练不到 1 小时,同时在普通设备上渲染达到交互帧率(约 30 FPS)。

为此,3D Gaussian Splatting (3DGS) [5] 提出了解决方案:使用一组高斯椭球体(Gaussian ellipsoids)来光栅化(rasterize)逼近 3D 场景的外观。它不仅达到了与 NeRF 相当的新视图合成质量,还实现了快速收敛(约 30 分钟训练)和实时渲染(1080p 分辨率下至少 30 FPS),使低成本 3D 内容创建和实时应用成为可能。

基于 3DGS 表示,大量研究涌现。论文的目的是帮助读者快速熟悉 3DGS,综述传统 splatting 方法和近期神经-based 3DGS 方法。已有两篇综述 [23, 24] 可作为参考。

[23] Chen, G.; Wang, W. A survey on 3D Gaussian splatting. arXiv preprint arXiv:2401.03890, 2024. 论文Review 3DGS综述 | 浙江大学 | A Survey on 3D Gaussian Splatting |(一)稀疏视角和内存压缩

论文Review 3DGS综述 | 浙江大学 | A Survey on 3D Gaussian Splatting |(二)发展、应用与结论

[24] Fei, B.; Xu, J.; Zhang, R.; Zhou, Q.; Yang, W.; He, Y. 3D Gaussian as a new vision era: A survey. arXiv preprint arXiv:2402.07181, 2024.

论文结构如 Fig. 1 所示,将工作分为三大类:

  • 场景重建(Section 2):3DGS 如何在各种场景下实现真实重建。
  • 场景编辑(Section 3):基于 3DGS 的编辑技术。
  • 下游应用(Section 4):如数字人等应用。
  • 总结与展望(Section 5):高层次总结和未来方向。

Fig. 2 提供了代表性工作的时间线。

2 Gaussian splatting for 3D reconstruction

2.1 Point-based rendering

点渲染(point-based rendering)旨在通过渲染一组离散几何原语生成真实图像。

  • 早期工作 [25] 使用纯点表示,每个点只影响一个像素。
  • Zwicker et al. [26] 提出 splats(椭球体),每个 splat 可覆盖多个像素,重叠更容易生成无孔图像。
  • 后续改进包括抗锯齿纹理过滤 [27]、渲染效率提升 [28,29]、不连续着色处理 [30]。传统方法详见 [31]。

传统方法关注给定几何的高质量渲染。随着隐式表示 [32–34] 的发展,研究者开始用神经隐式表示进行无给定几何的点基渲染。

NeRF [1] 是代表:用隐式密度场建模几何,用外观场预测视角依赖颜色。像素颜色计算公式:

其中 T_i = \prod_{j=1}^{i-1} (1 - \alpha_j)\alpha_i 是第 i 个采样点的透明度(从密度 σ 转换而来)。

NeRF 需要沿射线密集采样(通常 128 个点),导致训练和渲染慢。

3DGS [5] 的创新:

  • 放弃神经网络,直接优化高斯椭球体属性:位置 P、旋转 R、缩放 S、不透明度 α、球谐(SH)系数(表示视角依赖颜色)。
  • 像素颜色由投影到其上的高斯椭球体决定。
  • 投影协方差矩阵:

其中 \Sigma = R S S^T R^T 是 3D 协方差,W 是视图变换矩阵,J 是投影雅可比。

与 NeRF 的两大区别:

  1. 3DGS 直接建模不透明度(而 NeRF 从密度转换)。
  2. 3DGS 用光栅化渲染(无需采样点),NeRF 需要 3D 空间密集采样。

结果:3DGS 渲染极快(普通设备 30 FPS),质量与 NeRF 相当。

2.2 Quality Enhancement

原始3DGS虽好,但变焦/分辨率变化时有高频伪影、膨胀、锯齿;视角依赖不准;易popping;细节模糊;初始化敏感。

  • 抗锯齿类:Mip-Splatting [35] 观察采样率变化(如焦距)导致伪影,用频率约束(<奈奎斯特一半)+2D mip滤波逼近EWA [27]。MS3DGS [36] 多尺度高斯,根据新分辨率选层。Analytic-Splatting [37] logistic函数逼近累积分布。SAGS [38] 推理时自适应低通滤波(依分辨率/相机距离)。
  • 视角依赖提升:VDGS [39] 用NeRF-like网络预测颜色/不透明度(取代SH)。Scaffold-GS [40] 体素网格+可学习特征,轻MLP解码属性。Octree-GS [41] 八叉树LOD更好捕细节。
  • 防popping:StopThePop [42] 指出per-ray深度排序导致视角旋转时高斯“弹出”,改用tile-based局部一致排序。
  • 更好生长/几何:GaussianPro [20] 渐进传播,考虑邻视图法线一致+平面约束指导增长。GeoGaussian [43] 在切平面致密+邻高斯几何平滑。RadSplat [44] 从NeRF点云初始化+多视图重要性剪枝。
  • 复杂着色/细节:Spec-Gaussian [45] 各向异性高斯处理镜面/异向。TRIPS [46] 附神经特征,按投影大小渲染特征金字塔(类似ADOP [47])防模糊。FreGS [48] 频域正则恢复高频。GES [49] 广义正态分布锐化边缘。
  • 初始化/训练稳定:RAIN-GS [50] SfM点云稀疏大方差初始化+渐进低通滤波防小高斯。Pixel-GS [51] 分裂时考虑像素覆盖数+相机距离梯度缩放防floater。Bulo et al. [52] 像素级误差致密+克隆时修正不透明度。

Table 1(MipNeRF360数据集,PSNR↑ SSIM↑ LPIPS↓)详解:3DGS [5] 27.21/0.815/0.214;Mip-Splatting [35] 27.79/0.827/0.203;Scaffold-GS [40] 最高28.84/0.848/0.220。整体3DGS方法质量与NeRF相当,但渲染快得多。

2.3 Compression and regularization

原始3DGS实时渲染,但几百万高斯导致存储几百MB、计算负担。

  • 向量量化主流:C3DGS [56] 残差VQ压缩缩放/旋转。Compact3D [57] 不量化位置/不透明度防重叠。SASCGS [58] 双码本+敏感k-means。EAGLES [59] 全属性量化(不透明度量化特防floater)。LightGaussian [60] 小重要性剪枝+octree无损压缩位置。
  • 其他压缩:Mini-Splatting [63] 采样代替剪枝防伪影。SOGS [64] 属性排2D网格+平滑正则+JPEG XL压缩。HAC [65] Scaffold-GS风格锚点+多分辨率hash量化特征。Jo et al. [66] 识别冗余高斯。2D图像压缩扩展 [67](3D高斯退化2D)。
  • 存储技巧:Deflate熵编码、zip等。

Table 2详解(MipNeRF360,SSIM↑ PSNR↑ LPIPS↓ Size↓):原始3DGS 0.815/27.21/0.214/750MB;LightGaussian最佳0.857/28.45/0.210/42MB;SOGS最小18.2MB但质量稍降。

2.4 Dynamic 3D reconstruction

动态核心:高斯属性(如位置、旋转)随时间变化。

  • 最简单:Luiten et al. [6] 每帧独立中心/方向(四元数),其他固定,实现6-DOF跟踪。但帧间无连续、长序列存储爆炸 → 加物理正则(短期刚性/方向相似、长期等距)。
  • 规范空间+变形场主流(解耦静动):Yang et al. [7] 静态3DGS + MLP输入位置编码+时间t,输出偏移(位置/旋转/缩放),加衰减噪声平滑时间插值。4D-GS [69] hexplane体素编码时空+小MLP。GauFRe [71] 动静点云分离+指数/归一化确保优化合理。3DGStream [72] 在线训练+神经变换缓存+自适应加高斯处理新物体。4DGaussianSplatting [73] 4D高斯切片成每帧3D。DG-Mesh [74] 每帧Poisson网格细化位置。[75,76] 融入2D光流提升变形。TOGS [77] 不透明度偏移表(医学血管)。
  • 显式连续建模(参数少、防过拟合):Katsumata et al. [79] 傅里叶系列拟合位置(周期运动好)、线性拟合旋转+双向光流损失。Gaussian-Flow [80] 双域(多项式平滑+傅里叶激烈)+自适应时间步+平滑/kNN刚性损失。Li et al. [81] 径向基函数不透明度(处理出现/消失)+多项式运动+特征取代SH(基色+视角/时间残差MLP)。DynMF [82] 学习有限运动轨迹基+小MLP生成系数+稀疏/刚性正则。
  • 其他创新:4DGS [87] 全4D高斯(时间维缩放+4D SH)。SWAGS [88] 按运动量分窗口+可调MLP专注动态+重叠帧微调一致。医疗应用 [90–94](婴儿运动、单目内窥镜,加mask/深度监督)。

Table 3详解(D-NeRF数据集):NeRF类如D-NeRF 31.69/0.975/0.057;3DGS类GauFRe 34.80、4D-GS 34.01、SC-GS最高43.30/0.997/0.0078。3DGS显式几何更易动态建模+高效渲染,适合自由视点视频。

2.5 3D reconstruction from challenging inputs

稀疏、大场景、特殊数据的处理。大多数方法用密集视图小场景,但现实多挑战。

  • 稀疏/单视图:FSGS [95] 首探稀疏,从SfM初始化+unpooling+预训深度监督渲染深度。SparseGS [96]、CoherentGS [97]、DNGaussian [98] 加深度+去除错深度+SDS损失 [99] 提升新视图。GaussianObject [100] visual hull初始化+噪声扰动细调ControlNet修复。PixelSplat [102] 单视图像素对齐特征+网络预测属性。MVSplat [104] 成本体积输入属性网络。SplatterImage [105] U-Net直接译图像到属性,多视图可warping聚合。
  • 大/城市场景:PVG [107] 均值/不透明度随时间函数(高峰生命期)。DrivingGaussian [108]、HUGS [109] 增量静高斯+动对象(SAM分割+LiDAR)。StreetGaussians [111] 静背景+动对象(车辆姿态变换+时间SH)。SGD [112] 扩散先验。HGSMapping [114] 分离天空/地面。VastGaussian [115] 地面相机分布分区+迭代加视图+外观embedding。CityGaussian [116] 分治+相机距离LOD渲染。GauU-Scene [117] 1.5km²大数据集。
  • 其他特殊:无相机参数 [118–121]、模糊输入 [122–125]、无约束图像 [126,127]、镜面反射 [128,129]、CT扫描 [130,131]、全景 [132]、卫星 [133]。

3 Gaussian splatting for 3D editing

这部分超级实用,因为3DGS的显式表示(一大堆可直接操作的高斯椭球体)让编辑比NeRF容易多了——NeRF隐式,编辑像“大海捞针”;3DGS显式,编辑就像“捏泥巴”或“刷漆”。

论文把3DGS编辑分成三大类:几何编辑(改形状、移除物体)、外观编辑(改颜色、纹理、光照)、物理模拟(加物理动力学,让场景动起来)。为什么重要?因为实时渲染+高效训练让3DGS不只看,还能轻松改,开启AR/VR内容创作、游戏资产编辑、特效制作等应用。到2025年12月,这个方向已爆炸式增长(更多生成式编辑、扩散模型集成),但论文总结的这些基础方法仍是核心。

3.1 Geometry editing

几何编辑是3DGS编辑的热门,因为显式高斯易选中、移动、删除。论文详细总结了从简单操作到复杂变形的演进。

  • 文本/语义驱动编辑:GaussianEditor [134] 用文本提示+高斯语义追踪(Gaussian semantic tracing)控制3DGS,实现3D inpainting(补洞)、物体移除、物体组合。动机:结合2D语义信息提升3D一致性。
  • 分割+编辑:Gaussian Grouping [135] 用SAM(Segment Anything Model)2D掩码预测+3D空间一致性约束,同时重建和分割开放世界物体。优势:高效、高质量视觉效果,支持物体移除、inpainting、组合。
  • 交互式操纵:Point’n Move [136] 结合交互物体操纵+暴露区域inpainting。创新:双阶段自提示掩码传播(2D提示点转3D掩码分割),用户友好、高质量。
  • 边界锐化:Feng et al. [137] 新高斯分裂算法,避免移除后不均匀重建,让移除边界更锐利。

这些方法实现简单编辑(移除、旋转、平移),但限于基本操作。

  • 网格辅助变形:SuGaR [10] 从3DGS提取显式网格(表面正则化高斯),手动调整高斯参数基于变形网格实现几何编辑。但挑战:大尺度变形难。
  • 控制点/混合表示:SC-GS [16] 学习稀疏控制点处理场景动态,但激烈运动/细节表面变形难。GaMeS [18] 结合传统网格+纯3DGS:网格作为输入,用顶点参数化高斯,推理时改网格实时改高斯。但不能处理大变形/拓扑变化(训练时网格拓扑固定)。
  • 更先进网格集成:Gao et al. [19] 用显式表示先验(网格法线、显式变形梯度)+学习面分裂优化高斯参数/数量,提供拓扑信息,提升重建和编辑质量。GaussianFrosting [138] 类似:建基网格+“霜层”(高斯在网格表面小范围移动),允许细微调整。

分析:早期方法简单高效,后期网格混合解决大变形/拓扑问题,但仍需平衡质量和灵活性。

3.2 Appearance editing

外观编辑利用扩散模型等2D工具驱动3D变化。

  • 扩散驱动:GaussianEditor [139] 先用扩散模型[140]改2D图像(掩码区域从SAM[110]分割),再如InstructNeRF2NeRF[141]更新高斯属性。独立GaussianEditor[134]类似,但加分层高斯splatting(HGS)支持3D inpainting。
  • 一致性提升:GSEdit [142] 输入纹理网格或预训3DGS,用Instruct-Pix2Pix[143]+SDS损失更新。但易不一致 → GaussCtrl [144] 加深度图到ControlNet[101]鼓励几何一致。王 et al. [145] 用多视图跨注意力图解决不一致。
  • 解耦纹理:Texture-GS [146] 解耦几何/外观,学UV映射网络(表面附近点),支持纹理绘画/交换。3DGM [147] 用代理网格固定UV,高斯存纹理图,支持动画/纹理编辑。
  • 风格化:[148–150] 用参考风格图像风格化3DGS。
  • 纹理/光照解耦:GS-IR [151]、RelightableGaussian [11] 分离建模纹理(高斯材质参数)+光照(可学习环境图)。GIR [152]、GaussianShader [12] 绑材质到高斯,加法线约束(如Ref-NeRF[153])处理反射场景。
  • 延迟着色:DeferredGS [154] 观察高斯不透明度过拟合输入光照,重光时混合伪影 → 用SDF蒸馏几何+延迟着色渲染避免多重着色伪影。

分析:从2D驱动到解耦表示,解决一致性和可控性问题,适合relighting和材质编辑。

3.3 Physical simulation

物理编辑结合3DGS渲染与物理引擎。

  • 粒子云动力学:PhysGaussian [9] 用3DGS离散粒子云,实现基于连续介质变形[155]的高斯核动力学+照片级渲染。
  • 统一粒子:Gaussian Splashing [156] 结合3DGS+PBD(位置基动力学)[157],统一渲染、新视图合成、固体/流体动力学。如GaussianShader[12],加表面法线对齐高斯,提升流体表面反射。
  • VR交互:VR-GS [17] 物理动力学感知交互系统,用3DGS桥接生成与手工内容质量差距,支持实时高保真虚拟内容编辑。
  • 弹簧模型:Spring-Gaus [158] 用弹簧-质量模型建模动态3DGS,从视频学质量/速度,支持真实世界模拟编辑。
  • 语义物体级:Feature Splatting [159] 加预训网络语义先验,实现物体级模拟。

分析:3DGS显式粒子天然适合物理,结合PBD等实现流体/固体互动,增强沉浸感和可控性。

4 Applications of Gaussian splatting

4.1 Segmentation and understanding

开放世界3D场景理解是机器人、自动驾驶、VR/AR的核心挑战。2D理解大进步(如SAM[110]及其变体),方法开始整合语义特征(如CLIP[160]/DINO[161])到NeRF做3D分割/理解/编辑。但NeRF隐式连续表示计算密集。

3DGS实时+易编辑,近期方法整合2D理解工具:

  • 大多数用预训2D分割(如SAM[110])生成多视图图像语义掩码[135,136,162–167],或像素级密集语言特征(CLIP[160]/DINO[161])[168–170]。
  • LEGaussians[168]:每个高斯加不确定度属性+语义特征向量。渲染带不确定度的语义图,与量化CLIP/DINO密集特征比较(ground truth图像)。
  • Gaussian Grouping[135]:用DEVA传播/关联不同视图掩码,确保2D掩码跨视图一致。加身份编码属性到高斯,渲染身份特征图比较提取2D掩码。

分析:3DGS显式让语义易附着,提升开放世界理解效率。

4.2 Geometry reconstruction and SLAM

4.2.1 Geometry reconstruction

NeRF系列[171–174]从多视图高质量重建几何。但3DGS离散性质,早期工作少。

  • SuGaR[10]:首创从多视图建3D表面。用简单自正则损失:相机到最近高斯距离≈渲染深度图对应像素深度,鼓励高斯对齐真实表面。
  • NeuSG[175]:整合NeRF-based NeuS[171]表面属性到3DGS。鼓励高斯签名距离为零、法线与NeuS一致。
  • 类似:3DGSR[176]、GSDF[177]鼓励SDF与3DGS一致。
  • DN-Splatter[178]:用设备深度/法线先验或通用网络预测提升质量。
  • Wolf et al.[179]:先训3DGS渲染立体新型视图,用立体深度估计融合TSDF成三角网格。
  • 2D-GS[21]:用2D高斯替3D,更准射线-splat交点+低通滤波防退化线投影。
  • Gaussian Opacity Fields[22]:从高斯不透明度算随机点不透明度,转离散高斯为连续不透明场,可转显式表面。

分析:3DGS离散导致当前结果不超(甚至稍逊)隐式连续场方法(表面易确定)。

4.2.2 SLAM

3DGS方法同时定位相机+重建场景。

  • GS-SLAM[180]:自适应高斯扩展策略,加新高斯(捕获深度+渲染不透明度),删不可靠。
  • SplaTAM[181]:视图独立颜色+致密化掩码(考虑当前高斯+新帧深度)防重复致密。
  • GaussianSplattingSLAM[182]、Gaussian-SLAM[183]:加高斯尺度正则损失鼓励各向同性。
  • LIV-GaussMap[184]:LiDAR点云初始化+可优化大小自适应体素网格全局地图。
  • SGS-SLAM[185]、NEDSSLAM[186]、SemGauss-SLAM[187]:蒸馏2D语义信息(分割方法或数据集提供)到高斯。
  • Deng et al.[188]:滑动窗掩码防冗余分裂+向量量化紧凑。
  • CG-SLAM[189]:渲染深度不确定图提升重建质量。

基于SLAM地图,支持机器人任务:重定位[190]、导航[191–193]、6D姿态估计[194]、多传感器校准[195,196]、操纵[197,198]。

Table 4:不同SLAM重建定量结果(未列具体数,但论文强调3DGS显式几何灵活重投影缓解错位,比NeRF重建好;实时渲染让神经SLAM更实用,NeRF需更多硬件/时间)。

4.3 Digital humans

4.3.1 Body

从多视图视频重建动态人体。

  • D3GA[203]:首用可驱动3D高斯+四面体笼,提供几何/外观建模。
  • SplatArmor[204]:双MLP预测大运动(SMPL+规范空间)+SE(3)场姿势依赖效果,细节更丰富。
  • HuGS[205]:粗到细变形(线性蒙皮+局部学习细化),20 FPS SOTA。
  • HUGS[206]:tri-plane[207]因子化规范空间,单目视频(50–100帧)30分钟重建人+场景。
  • HiFi4G[208]:双图机制非刚性跟踪+3DGS,高保真紧凑时空一致。
  • GPSGaussian[13]:稀疏源视图高斯参数图+深度估计联合回归,无细调实时高分辨率。
  • GART[209]:扩展到关节动物。
  • Animatable Gaussians[210]:3DGS+2D CNN,模板引导参数化+姿势投影,准确外观/服装动态。
  • Gaussian Shell Maps[211]:CNN生成器+3DGS,精细服装/配件。
  • ASH[212]:投影到2D纹理空间(网格UV),实时高质量动画人。
  • 3DGS-Avatar[213]:浅MLP替SH建模颜色+几何先验正则变形,照片级+姿势依赖服装,新姿势泛化好。
  • GaussianBody[214]:单目视频物理先验正则规范空间高斯,防动态服装伪影。
  • GauHuman[215]:重设计prune/split/clone高效优化+姿势细化+权重场,分钟训、166 FPS渲染。
  • GaussianAvatar[216]:可优化张量+动态外观网络,实时动态重建/新动画。
  • Human101[217]:固定视角相机100秒高保真动态人。
  • SplattingAvatar[218]、GoMAvatar[219]:嵌入高斯到规范人体网格(重心+法线位移)。
  • GVA[220]:表面引导高斯重初始化,平衡致密化聚合。
  • HAHA[221]:网格表面附高斯+纹理网格渲染混合,减高斯数。

4.3.2 Head

  • MonoGaussianAvatar[222]:首单目动态头,规范空间+变形预测。
  • PSAvatar[223]:显式FLAME脸模型[224]初始化高斯,高保真脸几何+复杂体积(如眼镜)。
  • GaussianHead[225]:tri-plane+运动场模拟连续运动几何变化+丰富纹理(皮肤/头发)。
  • GaussianAvatars[226]:FLAME几何先验绑高斯到显式网格,优化椭球参数可控。
  • Rig3DGS[227]:可学习变形稳定泛化新表情/姿势/视角,便携设备可控肖像。
  • HeadGas[228]:表情向量[3DMMs[229]]加权潜在特征基,实时可动画头。
  • FlashAvatar[230]:均匀3D高斯场嵌入参数脸+空间偏移细节,300 FPS。
  • Gaussian Head Avatar[231]:超分辨网络高分辨头。
  • SplatFace[232]:模板网格初始化+联合优化高斯/网格(splat-to-mesh距离损失),少视图高质。
  • GauMesh[233]:混合跟踪纹理网格+规范3D高斯+可学习变形场动态头。
  • 其他:文本生成头[234]、deep fake[235]、relighting[236]。

头发/手:3DPSHR[237] MANO手先验+3DGS实时手重建;MANUS[238]手-物交互;GaussianHair[239] Marschner头发模型+UE4渲染,复杂头发几何/外观快速光栅化/体积渲染,支持编辑/relighting。

4.4 3D/4D generation

4.4.1 Need

跨模态图像生成(如扩散模型[140])惊艳,但缺3D数据难训大规模3D生成模型。DreamFusion[99]首用预训2D扩散+SDS损失蒸馏2D先验到3D(文本到3D),无3D数据训。但NeRF渲染重(小时级、低分辨率、质量差),后续提取网格细调更慢。

3DGS高分辨率、高FPS、低内存,取代NeRF成近期3D/4D生成主流表示。

4.4.2 3D generation

  • DreamGaussian[8]:DreamFusion框架中MipNeRF[54]换3DGS,用SDS优化高斯。分裂适合生成设置,提升效率。后续提取网格+UV纹理MSE细化(Magic3D[241]思路)。
  • GSGEN[242]:加Point-E[243] 3D SDS损失防Janus多脸,用Point-E初始化点云+2D先验细化外观。
  • GaussianDreamer[244]:Shap-E[245]初始点云+2D SDS,噪点增长/颜色扰动致密。
  • 多视图一致:[246,247]细调2D扩散一次生成多视图图像,SDS多视图监督。BoostDream[248]拼接4视图大图+正常图条件SDS,plug-and-play(支持NeRF/3DGS/DMTet[249])。
  • SDS改进:LucidDreamer[250]区间分数匹配(ISM)替DDPM+DDIM反演区间监督。GaussianDiffusion[251]多视图结构噪声+变分3DGS防floater。Yang et al.[252]迭代优化3D模型+扩散先验(可学习无条件嵌入+LoRA[253]参数)。其他SDS改进VSD[254]/CSD[255]可用于3DGS。
  • 3D扩散:GaussianCube[256]常数高斯体素化最优传输训3D扩散。GVGEN[257] 3D高斯体积。
  • 人体先验:GSMs[211] SMPL模板多层壳绑高斯+StyleGAN2 GAN可动画3D人。GAvatar[260]原始基[261]附SMPL-X[262]+高斯局部坐标,属性MLP预测+NeuS-like不透明到SDF几何约束+细节纹理网格。HumanGaussian[263] SMPLX表面随机采样初始化+双分支SDS(RGB/深度)+负提示指导防过饱和。
  • 场景生成:CG3D[264]文本拆解场景图+概率图模型祖先采样(先物体后交互)+两阶段(加重力/接触力)。LucidDreamer[265]、Text2Immersion[266]参考图像外扩(inpainting生成未见+单目深度+点云初始3DGS)。GALA3D[267]物体级MVDream[246]+场景级扩散组合。DreamScene[268]多时间步多阶段(环境/地面/物体)。RealmDreamer[269]迭代inpainting/深度不同视角。DreamScene360[270]360全景图+深度转3D。
  • 图像到3D:替换扩散为Zero-1-to-3 XL[271]图像条件[8],或加输入视图渲染损失一致。Repaint123[272] DreamGaussian基+渐进可控重绘(注意力特征注入+可见性感知)。大模型直接:TriplaneGaussian[14]混合tri-plane+3DGS,transformer点云解码+tri-plane解码属性+上采样+MLP转高斯。LGM[276]多视图图像[246/247]训不对称U-Net生成高斯(高分辨输入、低高斯输出)。AGG[277]粗3DGS+U-Net超分辨。BrightDreamer[278]固定锚点偏差中心。GRM[279]像素对齐高斯单前向。IM-3D[280]图像到视频模型Emu[281]转台视频+3DGS重建。Gamba[282] Mamba[283]预测属性捕关系。MVControl[284] ControlNet扩展3D(边/深/法线/涂鸦条件)。Hyper-3DG[285]超图学习粗3DGS补丁几何/纹理细化。DreamPolisher[286] ControlNet纹理细化+视图一致几何指导。FDGaussian[287] tri-plane注入扩散几何。

4.4.3 4D generation

3D生成基础上初步探索4D(动态)。

  • AYG[288]:变形网络赋动态,两阶段(静态3DGS SDS[140]+MVDream[246],动态视频SDS[289]只优变形场+随机帧图像SDS)。
  • DreamGaussian4D[15]:图像条件,先改进DreamGaussian[8]静态3DGS,Stable Diffusion Video生成视频监督+变形网络优化+3D SDS Zero1-to-3 XL[271],最后网格序列+图像到视频扩散纹理。
  • 视频到4D:4DGen[290]、Efficient4D[291] SyncDreamer[292]多视图图像伪GT训动态3DGS。前HexPlane[70]动态表示+点云变形伪GT;后转4D高斯+相邻时间空间体积融合提升SyncDreamer时序一致。
  • SC4D[293]:SC-GS[16]稀疏控制点迁移高效变形/外观。
  • STAG4D[294]:时序一致多视图扩散生成多视图视频,用于单目视频4D重建/生成。
  • Comp4D[295]:先单独4D物体,后轨迹约束组合,克服物体中心限制。

分析:大多数用扩散先验(2D图像渲染视图),3DGS快速光栅化比NeRF高效应用先验。

5 Discussion

5.1 Summary

论文综述了3DGS技术概述:源于传统点基渲染,快渲染+显式几何促进重建、编辑等任务(代表工作见Fig. 3)。3DGS在效率和部分任务质量上大提升,但不是完美表示,能满足所有需求。

这里先讨论常见3D表示优缺点(Meshes、SDFs、NeRFs、3DGS),再总结剩余挑战及未来解决思路。

5.2 Representations

5.2.1 Meshes

网格由顶点、边、面组成,详细几何+低存储成本。工业最广用,表示实时高质视觉(物理基材质帮助)。但大多手工或艺术家创建,耗时。即使神经生成[296–299],能力仍受现有数据集规模/范围限制。

分析:网格显式连接强,适合工业渲染/编辑,但自动化生成难。

5.2.2 SDFs and NeRFs

两者隐式神经场,从多视图图像自动学。Marching Cubes提取显式几何/网格。优势:逆渲染等需好表面表示的任务。缺点:3D空间密集采样,渲染低效,限消费级设备。动态场景重建也不成功(隐式表示)。

分析:连续场易提取表面,但计算重、动态弱。

5.2.3 3DGS

3DGS显式几何,但无边/面连接高斯。补偿:各向异性尺度防邻高斯间隙+合成真实新视图。光栅化渲染器:消费级设备实时可视大场景,使大场景重建、SLAM、生成(需效率)更可能。显式几何:灵活点重投影不同视角,易同时几何重建+相机姿态优化、动态重建,提升SLAM/大场景效率。

缺点:离散几何,当前方法几何质量仅相当SDF-based(如NeuS[171])。前景:结合其他表示[19,175]建高质量几何/表面,促进下游如自动驾驶/动画。

5.3 Challenges

5.3.1 Robust and generalizable novel view synthesis

3DGS新视图真实,但挑战输入(如稀疏视图、复杂着色、大场景)质量降[42]。虽有改进[12,96,108],仍有提升空间。跨输入鲁棒重要。开发通用管道(有/无数据先验,如[102,105,277])显著减训练成本。

5.3.2 Geometry reconstruction

渲染质量努力多,但几何/表面重建少[10,175]。比连续隐式(NeRF/SDF),3DGS离散几何质量仍受限。

5.3.3 Independent and efficient 3D editing

几何[10,16,18,19]、纹理[134,139]、光照[11,12,151,152]编辑有进展,但不能准确分解几何/纹理/光照,或需重优化高斯属性。缺乏独立编辑能力或效率。前景:高级渲染技术提取几何/纹理/光照独立编辑+建3DGS与网格连接高效编辑。

5.3.4 Realistic 4D generation

SDS[140]帮助,生成模型[8,14,276]忠实。但当前4D[15,289,290]缺乏真实几何、外观、物理感知运动。整合视频生成模型结果+物理定律或提升4D内容质量。

5.3.5 Platforms

大多数实现(如GauStudio[300])Python+CUDA PyTorch[301],限未来更广平台适用。用TensorFlow[302]、Jittor[303]等深度框架复现,促进其他平台使用。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐