论文Review 3DGS综述 | 中国科学院计算技术研究所 | Recent advances in 3D Gaussian splatting | 3DGS重建、编辑、应用

元让_vincent

2651人浏览 · 2025-12-17 09:59:32

元让_vincent · 2025-12-17 09:59:32 发布

基本信息

题目：Recent advances in 3D Gaussian splatting

来源：Computational Visual Media 2024

学校：中国科学院计算技术研究所

是否开源：无

摘要：三维高斯喷溅（3DGS）的出现极大加速了新颖视图合成中的渲染。与神经隐式表示如神经辐射场（NeRF）通过位置和视点条件神经网络表示三维场景不同，三维高斯泼溅利用一组高斯椭球体来建模场景，从而通过光栅化高斯椭球体实现高效渲染。除了快速渲染，3D高斯溅射的显式表示还促进了动态重建、几何编辑和物理仿真等后续任务。鉴于该领域的快速变化和日益增长的工作，我们介绍了近期三维高斯喷溅方法的文献综述，这些方法可按功能大致分为三维重建、三维编辑及其他下游应用。还涵盖了传统的基于点的渲染方法以及三维高斯喷溅的渲染表述，以帮助理解该技术。本综述旨在帮助初学者快速入门该领域，并为有经验的研究者提供全面的概述，旨在激发三维高斯喷溅表示的未来发展。

1 Introduction

论文引言部分首先指出，随着虚拟现实（VR）和增强现实（AR）的快速发展，对真实感强的 3D 内容需求日益增加。传统的 3D 内容创建方法主要有两种：

3D 重建：从扫描仪数据或多视图图像进行重建，但由于捕获不完美和相机参数估计噪声，往往结果不够逼真。
3D 建模：使用专业软件手动建模，能产生高真实感内容，但需要专业训练、耗时且交互繁琐。

为了自动创建真实 3D 内容，Neural Radiance Fields (NeRF) [1] 出现了。它使用密度场（density field）表示几何，颜色场（color field）表示外观，极大提升了新型视图合成（novel view synthesis）的质量。但 NeRF 的训练和渲染速度慢。

后续工作 [2–4] 试图加速 NeRF，使其能在手机或笔记本等普通设备上运行，但仍难以实现：在消费级 GPU 上训练不到 1 小时，同时在普通设备上渲染达到交互帧率（约 30 FPS）。

为此，3D Gaussian Splatting (3DGS) [5] 提出了解决方案：使用一组高斯椭球体（Gaussian ellipsoids）来光栅化（rasterize）逼近 3D 场景的外观。它不仅达到了与 NeRF 相当的新视图合成质量，还实现了快速收敛（约 30 分钟训练）和实时渲染（1080p 分辨率下至少 30 FPS），使低成本 3D 内容创建和实时应用成为可能。

基于 3DGS 表示，大量研究涌现。论文的目的是帮助读者快速熟悉 3DGS，综述传统 splatting 方法和近期神经-based 3DGS 方法。已有两篇综述 [23, 24] 可作为参考。

[23] Chen, G.; Wang, W. A survey on 3D Gaussian splatting. arXiv preprint arXiv:2401.03890, 2024. 论文Review 3DGS综述 | 浙江大学 | A Survey on 3D Gaussian Splatting |（一）稀疏视角和内存压缩

论文Review 3DGS综述 | 浙江大学 | A Survey on 3D Gaussian Splatting |（二）发展、应用与结论

[24] Fei, B.; Xu, J.; Zhang, R.; Zhou, Q.; Yang, W.; He, Y. 3D Gaussian as a new vision era: A survey. arXiv preprint arXiv:2402.07181, 2024.

论文结构如 Fig. 1 所示，将工作分为三大类：

场景重建（Section 2）：3DGS 如何在各种场景下实现真实重建。
场景编辑（Section 3）：基于 3DGS 的编辑技术。
下游应用（Section 4）：如数字人等应用。
总结与展望（Section 5）：高层次总结和未来方向。

Fig. 2 提供了代表性工作的时间线。

2 Gaussian splatting for 3D reconstruction

2.1 Point-based rendering

点渲染（point-based rendering）旨在通过渲染一组离散几何原语生成真实图像。

早期工作 [25] 使用纯点表示，每个点只影响一个像素。
Zwicker et al. [26] 提出 splats（椭球体），每个 splat 可覆盖多个像素，重叠更容易生成无孔图像。
后续改进包括抗锯齿纹理过滤 [27]、渲染效率提升 [28,29]、不连续着色处理 [30]。传统方法详见 [31]。

传统方法关注给定几何的高质量渲染。随着隐式表示 [32–34] 的发展，研究者开始用神经隐式表示进行无给定几何的点基渲染。

NeRF [1] 是代表：用隐式密度场建模几何，用外观场预测视角依赖颜色。像素颜色计算公式：

其中 $T_i = \prod_{j=1}^{i-1} (1 - \alpha_j)$ ， $\alpha_i$ 是第 i 个采样点的透明度（从密度 σ 转换而来）。

NeRF 需要沿射线密集采样（通常 128 个点），导致训练和渲染慢。

3DGS [5] 的创新：

放弃神经网络，直接优化高斯椭球体属性：位置 P、旋转 R、缩放 S、不透明度 α、球谐（SH）系数（表示视角依赖颜色）。
像素颜色由投影到其上的高斯椭球体决定。
投影协方差矩阵：

其中 $\Sigma = R S S^T R^T$ 是 3D 协方差，W 是视图变换矩阵，J 是投影雅可比。

与 NeRF 的两大区别：

3DGS 直接建模不透明度（而 NeRF 从密度转换）。
3DGS 用光栅化渲染（无需采样点），NeRF 需要 3D 空间密集采样。

结果：3DGS 渲染极快（普通设备 30 FPS），质量与 NeRF 相当。

2.2 Quality Enhancement

原始3DGS虽好，但变焦/分辨率变化时有高频伪影、膨胀、锯齿；视角依赖不准；易popping；细节模糊；初始化敏感。

抗锯齿类：Mip-Splatting [35] 观察采样率变化（如焦距）导致伪影，用频率约束（<奈奎斯特一半）+2D mip滤波逼近EWA [27]。MS3DGS [36] 多尺度高斯，根据新分辨率选层。Analytic-Splatting [37] logistic函数逼近累积分布。SAGS [38] 推理时自适应低通滤波（依分辨率/相机距离）。
视角依赖提升：VDGS [39] 用NeRF-like网络预测颜色/不透明度（取代SH）。Scaffold-GS [40] 体素网格+可学习特征，轻MLP解码属性。Octree-GS [41] 八叉树LOD更好捕细节。
防popping：StopThePop [42] 指出per-ray深度排序导致视角旋转时高斯“弹出”，改用tile-based局部一致排序。
更好生长/几何：GaussianPro [20] 渐进传播，考虑邻视图法线一致+平面约束指导增长。GeoGaussian [43] 在切平面致密+邻高斯几何平滑。RadSplat [44] 从NeRF点云初始化+多视图重要性剪枝。
复杂着色/细节：Spec-Gaussian [45] 各向异性高斯处理镜面/异向。TRIPS [46] 附神经特征，按投影大小渲染特征金字塔（类似ADOP [47]）防模糊。FreGS [48] 频域正则恢复高频。GES [49] 广义正态分布锐化边缘。
初始化/训练稳定：RAIN-GS [50] SfM点云稀疏大方差初始化+渐进低通滤波防小高斯。Pixel-GS [51] 分裂时考虑像素覆盖数+相机距离梯度缩放防floater。Bulo et al. [52] 像素级误差致密+克隆时修正不透明度。

Table 1（MipNeRF360数据集，PSNR↑ SSIM↑ LPIPS↓）详解：3DGS [5] 27.21/0.815/0.214；Mip-Splatting [35] 27.79/0.827/0.203；Scaffold-GS [40] 最高28.84/0.848/0.220。整体3DGS方法质量与NeRF相当，但渲染快得多。

2.3 Compression and regularization

原始3DGS实时渲染，但几百万高斯导致存储几百MB、计算负担。

向量量化主流：C3DGS [56] 残差VQ压缩缩放/旋转。Compact3D [57] 不量化位置/不透明度防重叠。SASCGS [58] 双码本+敏感k-means。EAGLES [59] 全属性量化（不透明度量化特防floater）。LightGaussian [60] 小重要性剪枝+octree无损压缩位置。
其他压缩：Mini-Splatting [63] 采样代替剪枝防伪影。SOGS [64] 属性排2D网格+平滑正则+JPEG XL压缩。HAC [65] Scaffold-GS风格锚点+多分辨率hash量化特征。Jo et al. [66] 识别冗余高斯。2D图像压缩扩展 [67]（3D高斯退化2D）。
存储技巧：Deflate熵编码、zip等。

Table 2详解（MipNeRF360，SSIM↑ PSNR↑ LPIPS↓ Size↓）：原始3DGS 0.815/27.21/0.214/750MB；LightGaussian最佳0.857/28.45/0.210/42MB；SOGS最小18.2MB但质量稍降。

2.4 Dynamic 3D reconstruction

动态核心：高斯属性（如位置、旋转）随时间变化。

最简单：Luiten et al. [6] 每帧独立中心/方向（四元数），其他固定，实现6-DOF跟踪。但帧间无连续、长序列存储爆炸 → 加物理正则（短期刚性/方向相似、长期等距）。
规范空间+变形场主流（解耦静动）：Yang et al. [7] 静态3DGS + MLP输入位置编码+时间t，输出偏移（位置/旋转/缩放），加衰减噪声平滑时间插值。4D-GS [69] hexplane体素编码时空+小MLP。GauFRe [71] 动静点云分离+指数/归一化确保优化合理。3DGStream [72] 在线训练+神经变换缓存+自适应加高斯处理新物体。4DGaussianSplatting [73] 4D高斯切片成每帧3D。DG-Mesh [74] 每帧Poisson网格细化位置。[75,76] 融入2D光流提升变形。TOGS [77] 不透明度偏移表（医学血管）。
显式连续建模（参数少、防过拟合）：Katsumata et al. [79] 傅里叶系列拟合位置（周期运动好）、线性拟合旋转+双向光流损失。Gaussian-Flow [80] 双域（多项式平滑+傅里叶激烈）+自适应时间步+平滑/kNN刚性损失。Li et al. [81] 径向基函数不透明度（处理出现/消失）+多项式运动+特征取代SH（基色+视角/时间残差MLP）。DynMF [82] 学习有限运动轨迹基+小MLP生成系数+稀疏/刚性正则。
其他创新：4DGS [87] 全4D高斯（时间维缩放+4D SH）。SWAGS [88] 按运动量分窗口+可调MLP专注动态+重叠帧微调一致。医疗应用 [90–94]（婴儿运动、单目内窥镜，加mask/深度监督）。

Table 3详解（D-NeRF数据集）：NeRF类如D-NeRF 31.69/0.975/0.057；3DGS类GauFRe 34.80、4D-GS 34.01、SC-GS最高43.30/0.997/0.0078。3DGS显式几何更易动态建模+高效渲染，适合自由视点视频。

2.5 3D reconstruction from challenging inputs

稀疏、大场景、特殊数据的处理。大多数方法用密集视图小场景，但现实多挑战。

稀疏/单视图：FSGS [95] 首探稀疏，从SfM初始化+unpooling+预训深度监督渲染深度。SparseGS [96]、CoherentGS [97]、DNGaussian [98] 加深度+去除错深度+SDS损失 [99] 提升新视图。GaussianObject [100] visual hull初始化+噪声扰动细调ControlNet修复。PixelSplat [102] 单视图像素对齐特征+网络预测属性。MVSplat [104] 成本体积输入属性网络。SplatterImage [105] U-Net直接译图像到属性，多视图可warping聚合。
大/城市场景：PVG [107] 均值/不透明度随时间函数（高峰生命期）。DrivingGaussian [108]、HUGS [109] 增量静高斯+动对象（SAM分割+LiDAR）。StreetGaussians [111] 静背景+动对象（车辆姿态变换+时间SH）。SGD [112] 扩散先验。HGSMapping [114] 分离天空/地面。VastGaussian [115] 地面相机分布分区+迭代加视图+外观embedding。CityGaussian [116] 分治+相机距离LOD渲染。GauU-Scene [117] 1.5km²大数据集。
其他特殊：无相机参数 [118–121]、模糊输入 [122–125]、无约束图像 [126,127]、镜面反射 [128,129]、CT扫描 [130,131]、全景 [132]、卫星 [133]。

3 Gaussian splatting for 3D editing

这部分超级实用，因为3DGS的显式表示（一大堆可直接操作的高斯椭球体）让编辑比NeRF容易多了——NeRF隐式，编辑像“大海捞针”；3DGS显式，编辑就像“捏泥巴”或“刷漆”。

论文把3DGS编辑分成三大类：几何编辑（改形状、移除物体）、外观编辑（改颜色、纹理、光照）、物理模拟（加物理动力学，让场景动起来）。为什么重要？因为实时渲染+高效训练让3DGS不只看，还能轻松改，开启AR/VR内容创作、游戏资产编辑、特效制作等应用。到2025年12月，这个方向已爆炸式增长（更多生成式编辑、扩散模型集成），但论文总结的这些基础方法仍是核心。

3.1 Geometry editing

几何编辑是3DGS编辑的热门，因为显式高斯易选中、移动、删除。论文详细总结了从简单操作到复杂变形的演进。

文本/语义驱动编辑：GaussianEditor [134] 用文本提示+高斯语义追踪（Gaussian semantic tracing）控制3DGS，实现3D inpainting（补洞）、物体移除、物体组合。动机：结合2D语义信息提升3D一致性。
分割+编辑：Gaussian Grouping [135] 用SAM（Segment Anything Model）2D掩码预测+3D空间一致性约束，同时重建和分割开放世界物体。优势：高效、高质量视觉效果，支持物体移除、inpainting、组合。
交互式操纵：Point’n Move [136] 结合交互物体操纵+暴露区域inpainting。创新：双阶段自提示掩码传播（2D提示点转3D掩码分割），用户友好、高质量。
边界锐化：Feng et al. [137] 新高斯分裂算法，避免移除后不均匀重建，让移除边界更锐利。

这些方法实现简单编辑（移除、旋转、平移），但限于基本操作。

网格辅助变形：SuGaR [10] 从3DGS提取显式网格（表面正则化高斯），手动调整高斯参数基于变形网格实现几何编辑。但挑战：大尺度变形难。
控制点/混合表示：SC-GS [16] 学习稀疏控制点处理场景动态，但激烈运动/细节表面变形难。GaMeS [18] 结合传统网格+纯3DGS：网格作为输入，用顶点参数化高斯，推理时改网格实时改高斯。但不能处理大变形/拓扑变化（训练时网格拓扑固定）。
更先进网格集成：Gao et al. [19] 用显式表示先验（网格法线、显式变形梯度）+学习面分裂优化高斯参数/数量，提供拓扑信息，提升重建和编辑质量。GaussianFrosting [138] 类似：建基网格+“霜层”（高斯在网格表面小范围移动），允许细微调整。

分析：早期方法简单高效，后期网格混合解决大变形/拓扑问题，但仍需平衡质量和灵活性。

3.2 Appearance editing

外观编辑利用扩散模型等2D工具驱动3D变化。

扩散驱动：GaussianEditor [139] 先用扩散模型[140]改2D图像（掩码区域从SAM[110]分割），再如InstructNeRF2NeRF[141]更新高斯属性。独立GaussianEditor[134]类似，但加分层高斯splatting（HGS）支持3D inpainting。
一致性提升：GSEdit [142] 输入纹理网格或预训3DGS，用Instruct-Pix2Pix[143]+SDS损失更新。但易不一致 → GaussCtrl [144] 加深度图到ControlNet[101]鼓励几何一致。王 et al. [145] 用多视图跨注意力图解决不一致。
解耦纹理：Texture-GS [146] 解耦几何/外观，学UV映射网络（表面附近点），支持纹理绘画/交换。3DGM [147] 用代理网格固定UV，高斯存纹理图，支持动画/纹理编辑。
风格化：[148–150] 用参考风格图像风格化3DGS。
纹理/光照解耦：GS-IR [151]、RelightableGaussian [11] 分离建模纹理（高斯材质参数）+光照（可学习环境图）。GIR [152]、GaussianShader [12] 绑材质到高斯，加法线约束（如Ref-NeRF[153]）处理反射场景。
延迟着色：DeferredGS [154] 观察高斯不透明度过拟合输入光照，重光时混合伪影 → 用SDF蒸馏几何+延迟着色渲染避免多重着色伪影。

分析：从2D驱动到解耦表示，解决一致性和可控性问题，适合relighting和材质编辑。

3.3 Physical simulation

物理编辑结合3DGS渲染与物理引擎。

粒子云动力学：PhysGaussian [9] 用3DGS离散粒子云，实现基于连续介质变形[155]的高斯核动力学+照片级渲染。
统一粒子：Gaussian Splashing [156] 结合3DGS+PBD（位置基动力学）[157]，统一渲染、新视图合成、固体/流体动力学。如GaussianShader[12]，加表面法线对齐高斯，提升流体表面反射。
VR交互：VR-GS [17] 物理动力学感知交互系统，用3DGS桥接生成与手工内容质量差距，支持实时高保真虚拟内容编辑。
弹簧模型：Spring-Gaus [158] 用弹簧-质量模型建模动态3DGS，从视频学质量/速度，支持真实世界模拟编辑。
语义物体级：Feature Splatting [159] 加预训网络语义先验，实现物体级模拟。

分析：3DGS显式粒子天然适合物理，结合PBD等实现流体/固体互动，增强沉浸感和可控性。

4 Applications of Gaussian splatting

4.1 Segmentation and understanding

开放世界3D场景理解是机器人、自动驾驶、VR/AR的核心挑战。2D理解大进步（如SAM[110]及其变体），方法开始整合语义特征（如CLIP[160]/DINO[161]）到NeRF做3D分割/理解/编辑。但NeRF隐式连续表示计算密集。

3DGS实时+易编辑，近期方法整合2D理解工具：

大多数用预训2D分割（如SAM[110]）生成多视图图像语义掩码[135,136,162–167]，或像素级密集语言特征（CLIP[160]/DINO[161]）[168–170]。
LEGaussians[168]：每个高斯加不确定度属性+语义特征向量。渲染带不确定度的语义图，与量化CLIP/DINO密集特征比较（ground truth图像）。
Gaussian Grouping[135]：用DEVA传播/关联不同视图掩码，确保2D掩码跨视图一致。加身份编码属性到高斯，渲染身份特征图比较提取2D掩码。

分析：3DGS显式让语义易附着，提升开放世界理解效率。

4.2 Geometry reconstruction and SLAM

4.2.1 Geometry reconstruction

NeRF系列[171–174]从多视图高质量重建几何。但3DGS离散性质，早期工作少。

SuGaR[10]：首创从多视图建3D表面。用简单自正则损失：相机到最近高斯距离≈渲染深度图对应像素深度，鼓励高斯对齐真实表面。
NeuSG[175]：整合NeRF-based NeuS[171]表面属性到3DGS。鼓励高斯签名距离为零、法线与NeuS一致。
类似：3DGSR[176]、GSDF[177]鼓励SDF与3DGS一致。
DN-Splatter[178]：用设备深度/法线先验或通用网络预测提升质量。
Wolf et al.[179]：先训3DGS渲染立体新型视图，用立体深度估计融合TSDF成三角网格。
2D-GS[21]：用2D高斯替3D，更准射线-splat交点+低通滤波防退化线投影。
Gaussian Opacity Fields[22]：从高斯不透明度算随机点不透明度，转离散高斯为连续不透明场，可转显式表面。

分析：3DGS离散导致当前结果不超（甚至稍逊）隐式连续场方法（表面易确定）。

4.2.2 SLAM

3DGS方法同时定位相机+重建场景。

GS-SLAM[180]：自适应高斯扩展策略，加新高斯（捕获深度+渲染不透明度），删不可靠。
SplaTAM[181]：视图独立颜色+致密化掩码（考虑当前高斯+新帧深度）防重复致密。
GaussianSplattingSLAM[182]、Gaussian-SLAM[183]：加高斯尺度正则损失鼓励各向同性。
LIV-GaussMap[184]：LiDAR点云初始化+可优化大小自适应体素网格全局地图。
SGS-SLAM[185]、NEDSSLAM[186]、SemGauss-SLAM[187]：蒸馏2D语义信息（分割方法或数据集提供）到高斯。
Deng et al.[188]：滑动窗掩码防冗余分裂+向量量化紧凑。
CG-SLAM[189]：渲染深度不确定图提升重建质量。

基于SLAM地图，支持机器人任务：重定位[190]、导航[191–193]、6D姿态估计[194]、多传感器校准[195,196]、操纵[197,198]。

Table 4：不同SLAM重建定量结果（未列具体数，但论文强调3DGS显式几何灵活重投影缓解错位，比NeRF重建好；实时渲染让神经SLAM更实用，NeRF需更多硬件/时间）。

4.3 Digital humans

4.3.1 Body

从多视图视频重建动态人体。

D3GA[203]：首用可驱动3D高斯+四面体笼，提供几何/外观建模。
SplatArmor[204]：双MLP预测大运动（SMPL+规范空间）+SE(3)场姿势依赖效果，细节更丰富。
HuGS[205]：粗到细变形（线性蒙皮+局部学习细化），20 FPS SOTA。
HUGS[206]：tri-plane[207]因子化规范空间，单目视频（50–100帧）30分钟重建人+场景。
HiFi4G[208]：双图机制非刚性跟踪+3DGS，高保真紧凑时空一致。
GPSGaussian[13]：稀疏源视图高斯参数图+深度估计联合回归，无细调实时高分辨率。
GART[209]：扩展到关节动物。
Animatable Gaussians[210]：3DGS+2D CNN，模板引导参数化+姿势投影，准确外观/服装动态。
Gaussian Shell Maps[211]：CNN生成器+3DGS，精细服装/配件。
ASH[212]：投影到2D纹理空间（网格UV），实时高质量动画人。
3DGS-Avatar[213]：浅MLP替SH建模颜色+几何先验正则变形，照片级+姿势依赖服装，新姿势泛化好。
GaussianBody[214]：单目视频物理先验正则规范空间高斯，防动态服装伪影。
GauHuman[215]：重设计prune/split/clone高效优化+姿势细化+权重场，分钟训、166 FPS渲染。
GaussianAvatar[216]：可优化张量+动态外观网络，实时动态重建/新动画。
Human101[217]：固定视角相机100秒高保真动态人。
SplattingAvatar[218]、GoMAvatar[219]：嵌入高斯到规范人体网格（重心+法线位移）。
GVA[220]：表面引导高斯重初始化，平衡致密化聚合。
HAHA[221]：网格表面附高斯+纹理网格渲染混合，减高斯数。

4.3.2 Head

MonoGaussianAvatar[222]：首单目动态头，规范空间+变形预测。
PSAvatar[223]：显式FLAME脸模型[224]初始化高斯，高保真脸几何+复杂体积（如眼镜）。
GaussianHead[225]：tri-plane+运动场模拟连续运动几何变化+丰富纹理（皮肤/头发）。
GaussianAvatars[226]：FLAME几何先验绑高斯到显式网格，优化椭球参数可控。
Rig3DGS[227]：可学习变形稳定泛化新表情/姿势/视角，便携设备可控肖像。
HeadGas[228]：表情向量[3DMMs[229]]加权潜在特征基，实时可动画头。
FlashAvatar[230]：均匀3D高斯场嵌入参数脸+空间偏移细节，300 FPS。
Gaussian Head Avatar[231]：超分辨网络高分辨头。
SplatFace[232]：模板网格初始化+联合优化高斯/网格（splat-to-mesh距离损失），少视图高质。
GauMesh[233]：混合跟踪纹理网格+规范3D高斯+可学习变形场动态头。
其他：文本生成头[234]、deep fake[235]、relighting[236]。

头发/手：3DPSHR[237] MANO手先验+3DGS实时手重建；MANUS[238]手-物交互；GaussianHair[239] Marschner头发模型+UE4渲染，复杂头发几何/外观快速光栅化/体积渲染，支持编辑/relighting。

4.4 3D/4D generation

4.4.1 Need

跨模态图像生成（如扩散模型[140]）惊艳，但缺3D数据难训大规模3D生成模型。DreamFusion[99]首用预训2D扩散+SDS损失蒸馏2D先验到3D（文本到3D），无3D数据训。但NeRF渲染重（小时级、低分辨率、质量差），后续提取网格细调更慢。

3DGS高分辨率、高FPS、低内存，取代NeRF成近期3D/4D生成主流表示。

4.4.2 3D generation

DreamGaussian[8]：DreamFusion框架中MipNeRF[54]换3DGS，用SDS优化高斯。分裂适合生成设置，提升效率。后续提取网格+UV纹理MSE细化（Magic3D[241]思路）。
GSGEN[242]：加Point-E[243] 3D SDS损失防Janus多脸，用Point-E初始化点云+2D先验细化外观。
GaussianDreamer[244]：Shap-E[245]初始点云+2D SDS，噪点增长/颜色扰动致密。
多视图一致：[246,247]细调2D扩散一次生成多视图图像，SDS多视图监督。BoostDream[248]拼接4视图大图+正常图条件SDS，plug-and-play（支持NeRF/3DGS/DMTet[249]）。
SDS改进：LucidDreamer[250]区间分数匹配(ISM)替DDPM+DDIM反演区间监督。GaussianDiffusion[251]多视图结构噪声+变分3DGS防floater。Yang et al.[252]迭代优化3D模型+扩散先验（可学习无条件嵌入+LoRA[253]参数）。其他SDS改进VSD[254]/CSD[255]可用于3DGS。
3D扩散：GaussianCube[256]常数高斯体素化最优传输训3D扩散。GVGEN[257] 3D高斯体积。
人体先验：GSMs[211] SMPL模板多层壳绑高斯+StyleGAN2 GAN可动画3D人。GAvatar[260]原始基[261]附SMPL-X[262]+高斯局部坐标，属性MLP预测+NeuS-like不透明到SDF几何约束+细节纹理网格。HumanGaussian[263] SMPLX表面随机采样初始化+双分支SDS（RGB/深度）+负提示指导防过饱和。
场景生成：CG3D[264]文本拆解场景图+概率图模型祖先采样（先物体后交互）+两阶段（加重力/接触力）。LucidDreamer[265]、Text2Immersion[266]参考图像外扩（inpainting生成未见+单目深度+点云初始3DGS）。GALA3D[267]物体级MVDream[246]+场景级扩散组合。DreamScene[268]多时间步多阶段（环境/地面/物体）。RealmDreamer[269]迭代inpainting/深度不同视角。DreamScene360[270]360全景图+深度转3D。
图像到3D：替换扩散为Zero-1-to-3 XL[271]图像条件[8]，或加输入视图渲染损失一致。Repaint123[272] DreamGaussian基+渐进可控重绘（注意力特征注入+可见性感知）。大模型直接：TriplaneGaussian[14]混合tri-plane+3DGS，transformer点云解码+tri-plane解码属性+上采样+MLP转高斯。LGM[276]多视图图像[246/247]训不对称U-Net生成高斯（高分辨输入、低高斯输出）。AGG[277]粗3DGS+U-Net超分辨。BrightDreamer[278]固定锚点偏差中心。GRM[279]像素对齐高斯单前向。IM-3D[280]图像到视频模型Emu[281]转台视频+3DGS重建。Gamba[282] Mamba[283]预测属性捕关系。MVControl[284] ControlNet扩展3D（边/深/法线/涂鸦条件）。Hyper-3DG[285]超图学习粗3DGS补丁几何/纹理细化。DreamPolisher[286] ControlNet纹理细化+视图一致几何指导。FDGaussian[287] tri-plane注入扩散几何。

4.4.3 4D generation

3D生成基础上初步探索4D（动态）。

AYG[288]：变形网络赋动态，两阶段（静态3DGS SDS[140]+MVDream[246]，动态视频SDS[289]只优变形场+随机帧图像SDS）。
DreamGaussian4D[15]：图像条件，先改进DreamGaussian[8]静态3DGS，Stable Diffusion Video生成视频监督+变形网络优化+3D SDS Zero1-to-3 XL[271]，最后网格序列+图像到视频扩散纹理。
视频到4D：4DGen[290]、Efficient4D[291] SyncDreamer[292]多视图图像伪GT训动态3DGS。前HexPlane[70]动态表示+点云变形伪GT；后转4D高斯+相邻时间空间体积融合提升SyncDreamer时序一致。
SC4D[293]：SC-GS[16]稀疏控制点迁移高效变形/外观。
STAG4D[294]：时序一致多视图扩散生成多视图视频，用于单目视频4D重建/生成。
Comp4D[295]：先单独4D物体，后轨迹约束组合，克服物体中心限制。

分析：大多数用扩散先验（2D图像渲染视图），3DGS快速光栅化比NeRF高效应用先验。

5 Discussion

5.1 Summary

论文综述了3DGS技术概述：源于传统点基渲染，快渲染+显式几何促进重建、编辑等任务（代表工作见Fig. 3）。3DGS在效率和部分任务质量上大提升，但不是完美表示，能满足所有需求。

这里先讨论常见3D表示优缺点（Meshes、SDFs、NeRFs、3DGS），再总结剩余挑战及未来解决思路。

5.2 Representations

5.2.1 Meshes

网格由顶点、边、面组成，详细几何+低存储成本。工业最广用，表示实时高质视觉（物理基材质帮助）。但大多手工或艺术家创建，耗时。即使神经生成[296–299]，能力仍受现有数据集规模/范围限制。

分析：网格显式连接强，适合工业渲染/编辑，但自动化生成难。

5.2.2 SDFs and NeRFs

两者隐式神经场，从多视图图像自动学。Marching Cubes提取显式几何/网格。优势：逆渲染等需好表面表示的任务。缺点：3D空间密集采样，渲染低效，限消费级设备。动态场景重建也不成功（隐式表示）。

分析：连续场易提取表面，但计算重、动态弱。

5.2.3 3DGS

3DGS显式几何，但无边/面连接高斯。补偿：各向异性尺度防邻高斯间隙+合成真实新视图。光栅化渲染器：消费级设备实时可视大场景，使大场景重建、SLAM、生成（需效率）更可能。显式几何：灵活点重投影不同视角，易同时几何重建+相机姿态优化、动态重建，提升SLAM/大场景效率。

缺点：离散几何，当前方法几何质量仅相当SDF-based（如NeuS[171]）。前景：结合其他表示[19,175]建高质量几何/表面，促进下游如自动驾驶/动画。

5.3 Challenges

5.3.1 Robust and generalizable novel view synthesis

3DGS新视图真实，但挑战输入（如稀疏视图、复杂着色、大场景）质量降[42]。虽有改进[12,96,108]，仍有提升空间。跨输入鲁棒重要。开发通用管道（有/无数据先验，如[102,105,277]）显著减训练成本。

5.3.2 Geometry reconstruction

渲染质量努力多，但几何/表面重建少[10,175]。比连续隐式（NeRF/SDF），3DGS离散几何质量仍受限。

5.3.3 Independent and efficient 3D editing

几何[10,16,18,19]、纹理[134,139]、光照[11,12,151,152]编辑有进展，但不能准确分解几何/纹理/光照，或需重优化高斯属性。缺乏独立编辑能力或效率。前景：高级渲染技术提取几何/纹理/光照独立编辑+建3DGS与网格连接高效编辑。

5.3.4 Realistic 4D generation

SDS[140]帮助，生成模型[8,14,276]忠实。但当前4D[15,289,290]缺乏真实几何、外观、物理感知运动。整合视频生成模型结果+物理定律或提升4D内容质量。

5.3.5 Platforms

大多数实现（如GauStudio[300]）Python+CUDA PyTorch[301]，限未来更广平台适用。用TensorFlow[302]、Jittor[303]等深度框架复现，促进其他平台使用。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

影刀RPA新手教程：影刀云调度完全指南——任务中心配置、机器人管理与并发执行

DAMO开发者矩阵

基于 ROS Noetic 的参数服务器功能设计与实现

项目采用标准 catkin 工作空间架构，设计并实现了参数写入节点与参数操作节点，完整覆盖参数写入、读取、修改、删除四大核心功能，并通过 roslaunch 实现多节点一键启动。参数服务器的出现解决了这一痛点，它以 ROS Master 为载体，提供全局共享的字典存储服务，所有节点均可通过统一的 API 进行参数读写，实现配置的集中管理。实验结果表明，ROS 参数服务器能够稳定支持多类型数据的存储