上交揭秘！机器人领域中最优的3D场景表示是什么？点云？体素？SDF？Mesh？NeRF？3D GS？场景图？

3Ｄ视觉工坊

144人浏览 · 2025-12-05 07:02:55

3Ｄ视觉工坊 · 2025-12-05 07:02:55 发布

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

论文信息

标题：What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models

作者：Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen

机构：Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University

原文链接：https://arxiv.org/abs/2512.03422

代码链接：https://github.com/dtc111111/awesomerepresentation-for-robotics

导读

在本文中，我们全面总结了当前机器人技术中常用的场景表示方法。这些方法包括传统的点云、体素、有符号距离函数以及场景图等表示方式，同时也涵盖了较新的神经网络表示技术，如神经辐射场、3D高斯散布模型以及新兴的基础模型。虽然目前的SLAM与定位系统主要依赖点云、体素这类稀疏表示方式，但密集型场景表示方法在导航、避障等后续任务中无疑会发挥关键作用。此外，神经辐射场、3D高斯散布模型以及基础模型这类神经网络表示技术，非常适合整合高层次的语义信息与基于语言的先验知识，从而实现更全面的3D场景理解与智能体行为控制。本文将机器人的核心功能模块分为五个部分：感知、建图、定位、导航与操控。首先，我们介绍了各种场景表示方法的标准构建方式，并比较了它们在不同功能模块中的优缺点。本次调研的核心问题是：哪种3D场景表示方法最适合用于机器人技术？随后，我们探讨了3D场景表示技术未来的发展趋势，特别分析了3D基础模型如何可能取代现有方法，成为未来机器人应用的统一解决方案。同时，我们也分析了实现这一目标所面临的挑战。我们的目标是为新手和资深研究人员提供一份有价值的参考资料，帮助他们探索3D场景表示技术的未来发展方向及其在机器人技术中的应用。

引言

我们总结了机器人领域三维场景表示的发展时间线，包括点云、体素、网格、面片（surfels）、场景图、有符号距离场（SDF），以及最近出现的神经辐射场（Neural Radiance Fields，NeRF）和三维高斯溅射（3D Gaussian Splatting，3DGS）等表示方法。此外，我们根据这些表示方法在不同机器人模块（包括建图、同步定位与地图构建（Simultaneous Localization and Mapping，SLAM）、定位、规划、操作和仿真）中的应用对其进行分类。这种分类为现代机器人系统如何利用不同场景表示满足多样化功能需求提供了全面的视角。

三维场景表示是指机器人理解周围环境的能力，对于实现机器人系统的自主性和智能性至关重要。这种能力的核心在于利用机载传感器收集的观测数据构建环境空间表示。这种表示是各种下游任务的基础，决定了机器人在环境中导航、避障、执行操作以及进行智能交互的能力。推荐课程：国内首个面向具身智能方向的理论与实战课程。

多年来，得益于传感器技术的进步和算法的发展，机器人场景感知与表示取得了显著进展。早期的机器人状态估计方法依赖于使用卡尔曼滤波器和期望最大化算法处理传感器观测数据，通常使用二维网格地图来表示环境。随着激光雷达和RGB-D相机等三维传感器的出现，场景表示逐渐从二维地图演变为三维地图。这些三维表示通常使用点云、体素或网格构建。这些方法仅限于生成离散的场景表示，缺乏生成密集且连续的三维表示的能力。因此，它们难以支持复杂的具身智能任务，例如机器人在复杂环境中的导航和交互。近年来，深度学习、计算机图形学与机器人技术的融合推动了显著进展。在众多推动这一进展的技术中，神经辐射场（NeRF）、三维高斯溅射和基础模型（Foundation Model，FM）作为极具前景的创新脱颖而出。神经辐射场（NeRF）由Mildenhall等人提出。NeRF的核心原理是使用多层感知器（Multilayer Perceptron，MLP）对三维场景进行建模，将表示位置和视角方向的五维输入映射到场景几何和外观信息。NeRF正变得愈发关键，显著增强了机器人感知能力，并使机器人与环境之间能够进行更复杂、更精细的交互。已有几篇综述论文发表，重点介绍了NeRF在机器人系统中的应用进展。

为了提高计算效率，三维高斯溅射（3DGS）被设计用于果断解决这些瓶颈，实现以1080p分辨率进行高质量实时（30帧/秒）场景渲染。3DGS采用显式且富有表现力的场景表示方法，利用空间中数百万个可学习的三维高斯椭球对场景进行建模。由于3DGS在各个领域取得了重大进展，许多学者针对这一主题发表了大量综述。

标记化表示（基础模型）使用隐式标记对整个场景进行编码。通过将Transformer编码器架构与大语言模型（Large Language Model，LLM）相结合，它展现出卓越的泛化能力，有时还能展现出在训练数据中未出现的问题上找到零样本解决方案的涌现能力。基础模型有潜力提升机器人各个模块的能力。一些综述论文专注于集成基础模型以实现机器人自主性。

本文旨在系统讨论并分类机器人领域的各种三维场景表示方法，尤其侧重于评估哪些表示方法更适合机器人系统的不同模块。我们比较了机器人领域各种场景表示方法的发展时间线，如图1所示。此外，我们分析了自神经场景表示（如神经辐射场（NeRF）、三维高斯溅射（3DGS）和标记化表示（基础模型））出现以来，机器人领域相关论文发表数量的趋势。如图2所示，这一趋势明显呈上升态势，越来越多的研究探索了NeRF、3DGS和基础模型在机器人领域的应用。

核心贡献

我们在图3中总结了现实世界机器人所需的五个核心模块：

• 感知。机器人利用该模块感知周围环境，包括语义分割和场景理解。

• 建图。该模块用于利用机器人上的传感器对周围环境进行建模并生成地图。

• 定位。机器人定位是确定机器人在其环境中所处位置的过程。

• 操作。机器人操作是指机器人与周围物体交互的方式：抓取物体、开门、将订单装入箱子。所有这些动作都需要机器人以智能的方式规划和控制其手部和手臂的运动。

• 导航。机器人导航是指机器人在参考坐标系中识别自身位置并规划通往目标位置的路径的能力。

文章架构

在第II节中，我们从不同场景表示方法的背景知识入手。我们简要介绍了不同场景表示的问题表述，随后比较了它们的差异。然后，我们在第III节中讨论了场景表示的改进：（i）内存效率：场景表示的加速与压缩。（ii）逼真渲染：不同表示的渲染和可视化能力。（iii）几何表示能力：不同场景表示的几何表示能力。

接下来是机器人感知模块，该模块分为两部分（第IV节）：（i）目标检测：目标级感知侧重于对场景中的单个目标进行建模和识别，包括其类别、属性和空间范围。（ii）场景理解：除了孤立的目标，场景级感知旨在通过建模空间布局、语义、目标间关系和整体场景上下文来捕捉环境的整体结构。

在建图和定位模块（第V节）中，现有方法在SLAM和定位领域取得了令人瞩目的成果。神经场景表示能够实现对环境的更精确、更密集的建模，这对避障特别有益。这一能力对于机器人的导航和操作至关重要。该模块分为三部分：（i）场景重建：场景表示的地图重建能力包括几何精度和渲染质量，以及在静态场景、大规模户外场景和动态场景中的重建能力。（iii）SLAM：SLAM部分主要包括不同场景表示方法在SLAM过程中的地图精度、位姿精度和实时性能。（iv）全局定位：全局定位主要涉及使用现有地图进行定位时的精度和实时性能。

在操作模块（第VI-A节）中，我们主要比较了基于不同场景表示方法的抓取框架。传统方法在抓取方面具有更高的实时性能和计算效率，但在泛化能力和处理复杂目标操作任务方面存在局限。相比之下，基于神经网络的场景表示在生成新视角和跨多个场景泛化方面具有一定能力，使其更能适应复杂任务。基于基础模型的方法能够实现零样本抓取任务，具备强大的泛化能力。此外，语言信息的集成使这些模型能够支持交互式抓取，并增强了它们理解和规划高级认知任务的能力。

在导航模块（第VI节）中，与传统的场景表示方法相比，神经场景表示能够提供高度准确的环境重建。此外，它们还有助于更好地融合语义和语言信息，从而能够执行更复杂的导航任务。我们将导航模块分为两个部分：（i）规划：从当前位置到目标目的地生成最优或可行路径，同时避开障碍物。（ii）探索：主动导航并绘制先前未知区域的地图。

本文探讨了机器人不同模块最适合的三维场景表示方法，研究了相关方法、基准测试性能，并讨论了挑战和未来方向。我们的主要贡献如下：

• 全面、最新的综述与基准测试：本文对机器人领域的不同场景表示方法进行了广泛且最新的综述，涵盖了经典方法和前沿方法。对于每个模块，我们都提供了详细介绍，并突出了该模块中不同场景表示的优势。据我们所知，这是第一篇专注于机器人领域讨论的综述。

• 三维场景表示的未来方向：在机器人领域的每个模块中，我们指出了当前研究的技术局限性，并提出了几个有前景的未来研究方向，旨在激励这一快速发展领域的进一步进步。

• 开源项目：我们在GitHub上发布了一个开源项目，整理了机器人领域不同场景表示的相关文章，并将继续向该项目添加新的研究成果和技术，网址为https://github.com/dtc111111/awesome-representation-for-robotics。我们希望更多研究人员能够利用它获取最新的研究信息。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。