通用位置识别综述:迈向真实世界自主性

Peng Yin¹,†,*, Jianhao Jiao²,†, Shiqi Zhao¹, Lingyun Xu³, Guoquan Huang⁴, Howie Choset³, Sebastian Scherer³, and Jianda Han⁵

摘要 — 在机器人领域,实现能够执行大规模和长期操作的真实世界自主性的追求,已将位置识别(PR)定位为核心技术。尽管过去二十年中PR社区取得了显著进步,并吸引了计算机视觉和机器人领域的关注,但开发足以支持真实世界机器人系统的PR方法仍面临挑战。本文旨在弥合这一差距,强调PR在同时定位与地图构建(SLAM)2.0框架中的关键作用。这一机器人导航的新阶段要求通过集成先进人工智能(AI)技术,提供可扩展、适应性和高效的PR解决方案。为实现这一目标,我们全面回顾了PR的当前最先进(SOTA)进展、剩余挑战,并强调其在机器人中的广泛应用。本文从PR的公式化和关键研究挑战入手。我们广泛回顾文献,重点关注位置表示的相关方法以及各种PR挑战的解决方案。讨论了展示PR在机器人中潜力的应用、关键PR数据集和开源库。我们以PR的未来方向讨论结束,并提供文献摘要:https://github.com/MetaSLAM/GPRS。

索引术语 — 位置识别、多传感器模态、长期导航、数据集

I. 引言

A. 背景

近年来,移动机器人系统因其在自动驾驶、最后一英里交付、搜救操作和仓库物流等多样化应用中的作用而备受关注。这些机器人日益融入我们的日常生活,面临着在复杂环境中导航的日益增长需求。这一演变引发了一个关键问题:机器人如何实现终身自主性,具有零样本或少样本转移到新环境和新任务的能力?

Peng Yin 和 Shiqi Zhao 来自香港城市大学机械工程系,香港518057,中国。(pengyin@andrew.cmu.edu, ryanzhao9459@gmail.com)。
Jianhao Jiao 来自伦敦大学学院计算机科学系,Gower Street, WC1E 6BT, London, UK。(ucacjji@ucl.ac.uk)。
Guoquan Huang 来自特拉华大学机器人感知与导航组,Newark, DE 19716 USA。(ghuang@udel.edu)。
Lingyun Xu、Howie Choset 和 Sebastian Scherer 来自卡内基梅隆大学机器人研究所,Pittsburgh, PA 15213, USA。(xulinyun2021@gmail.com, (choset, basti)@andrew.cmu.edu)。
Jianda Han 来自南开大学,天津300071,中国。(hanjianda@nankai.edu.cn)。
*通讯作者:Peng Yin (pengyin@andrew.cmu.edu)
† Peng Yin 和 Jianhao Jiao 贡献相等。

图1. 我们的通用位置识别(PR)综述结构。 PR 是能够在不同环境条件和视点差异下识别访问区域的能力。本综述结构如下:第二节定义基于位置的PR问题并介绍重大挑战。第三节调查位置表示方法。第四和第五节分别提供当前四个主要挑战的解决方案和潜在应用。最后,第六节介绍当前PR研究的数据集、指标和相关支持库。

作为导航的基本模块,SLAM 使机器人能够估计其自我运动,同时构建环境的地图。终身导航,即机器人自主适应不断变化的环境并随着经验增加的能力,将 SLAM 系统推向超越准确性指标的解决方案,要求解决长期定位、动态地图构建和自我演化问题。这标志着 SLAM 2.0 时代的黎明:偏离传统 SLAM 框架 [1],SLAM 2.0 优先考虑先进技术(如机器学习驱动的感知和语义场景抽象)的协同作用,以在动态、开放世界环境中实现可扩展和高效的机器人自主性。作为推进到 SLAM 2.0 的核心,PR 现在比以往任何时候都更重要,它使机器人能够识别先前访问的区域,尽管环境条件和视点发生变化。本质上,PR 的能力取决于将当前观察与机器人环境的内部“记忆”创建短期或长期关联。在视觉 SLAM (VSLAM) 中,记忆通常指由视觉信息组成的地图(或某些上下文中称为数据库)。对于决策,PR 使机器人能够将过去经验与当前情况关联并应用。因此,PR 的作用超越了 SLAM 中的循环闭合检测 (LCD)。其应用现在扩展到故障恢复、全局定位、多代理协调等。PR 已成为机器人自主性的基石能力,由其日益重要性的三个关键指标驱动:(1) 迄今为止已发表超过 3500 篇关于 PR 方法论的论文;(2) 从受控室内设置到非结构化室外环境的转变,面临感知混叠和动态条件等挑战,需要鲁棒、可扩展的 PR 解决方案;(3) 该领域涌现了有组织的竞赛和工作坊,包括 CVPR 2020 长期视觉 PR (VPR) 挑战、ICRA 2022 城市规模 UGV 定位和视觉地形相对导航 (VTRN) 的通用 PR 竞赛,以及 IROS 2023 闭合循环定位工作坊。这些汇聚因素将 PR 定位为自主系统的关键前沿,催化了几十年跨越几何、语义和基于学习范式的创新。

B. 先前综述摘要

PR 的演变可视化为图2中的时间线。Lowry 等 [2] 提供了截至 2015 年的 VPR 全面历史分析。这一开创性综述阐述了 VPR 挑战,界定了 PR 系统的核心组件,并回顾了应对外观变化的主要解决方案。它将 PR 系统的本质提炼为三个基本模块,这些模块仍是现代解决方案的基础:(1) 用于视觉输入抽象的图像处理模块,(2) 表示机器人如何存储环境记忆的地图,以及 (3) 评估机器人处于先前遇到或新位置可能性的信念生成模块。在过去十年中,主流 PR 方法的演变已从手工特征描述符过渡到数据驱动管道,如 [3]–[5] 中全面讨论。然而,正如 Zaffar 等 [6] 观察到的,PR 社区在性能基准测试中出现了日益碎片化。这种差异由于研究中不一致的评估指标和数据集实现而使直接方法比较复杂化。为解决这些挑战,他们的工作建立了专注于 VPR 的开源标准化评估框架 [6]。其他综述如 [7](基于视觉)和 [8](基于 LiDAR)分别专一于 VPR 和 LPR。虽然这些工作回顾了用于细粒度度量定位的姿态估计技术,但此类方法超出我们的核心范围。

C. 贡献和论文组织

自主系统和机器感知的最新进展推动了 PR 研究的动态演变。然而,现有的文献缺乏彻底探索多样化方面、挑战和具身 AI 应用部署潜力的综述。我们的工作通过引入“通用 PR”(GPR)框架来填补这一空白,该框架扩展了 VPR 和 LPR 的范围,涵盖更广泛的主题。GPR 强调利用多模态信息(如视觉、几何和文本输入)来建立鲁棒的环境嵌入。这一系统综述特别相关,鉴于三个关键领域的变革性发展:(1) 基础语言模型 [9], [10] 展示了前所未有的推理能力;(2) 神经场景表示框架 [11] 实现了逼真的环境重建;(3) 工业和服务部门的真实世界机器人部署扩展。本文的组织架构可视化为图1,按如下顺序进行:

  • 第二节 详细说明 PR 的两个广泛接受定义:基于位置和基于重叠的定义。然后提供关于“有效 PR”的更精确公式化,并突出涉及的关键挑战。
  • 第三节 回顾 PR 中的现有表示方法,涵盖该领域流行的核心解决方案。直观上,PR 扩展超出单纯基于图像的方法,涵盖各种解决方案。在低级,详述于第三节 A,一个“位置”可以通过传感器捕获,如相机、LiDAR 和雷达。一般期望相同位置产生相似的传感器数据。在更高抽象和高级,讨论于第三节 B,一个“位置”也可以通过紧凑数据形式表示,如场景图、隐式嵌入和高斯溅射 (GS) 地图。
  • 第四节 深入探讨 PR 面临的主要挑战,探索当代解决方案如何定制以实现关键属性,如对条件和视点的不变性、强大的泛化能力、高效性和不确定性意识。
  • 第五节 专注于部署 PR 技术以实现真实世界自主性。从这些方面突出机会:大规模和长期导航(第五节 A)、视觉地形相对导航 (VTRN)(第五节 B)、多代理定位和映射(第五节 C),以及终身导航(第五节 D)。我们认为 PR 注定成为现代机器人学的基石,其应用和相关研究超出 SLAM 的领域。
  • 第六节 回顾 PR 领域的领先数据集和基准。引入一种新的属性分析视角,以补充主要指标的质量评估。
  • 第七节 提供本综述的彻底结论,并概述未来研究潜在方向。

图2. 此时间线映射了 PR 从手工到数据驱动方法的演变,分析关键技术、综述和应用。 我们的综述在恰当时机出现,鉴于具身 AI、重构和协作感知等多个领域的主要事件。选定作品的引用因页面限制而省略;读者可在线搜索引用的标题。

II. 有效位置识别的公式化和挑战

在探索 PR 的具体解决方案之前,解决两个基本问题是至关重要的:(1) 什么是有效 PR? 和 (2) PR 中遇到的主要挑战是什么?

A. 什么是有效位置识别?

1) 现有定义

两个主要范式主导 PR 定义:基于位置和基于重叠。图3 用示例解释它们在位置判断中的差异。源于 O’Keefe 对海马体“位置细胞”的发现 [12],基于位置的 PR [2] 评估机器人是否重新访问地理位置(点或区域),尽管环境或视点变化。核心挑战在于鲁棒地将观察与空间邻近性关联。相反,基于重叠的 PR [5] 将位置等价定义为传感器视野 (FoV) 中的视觉重叠,而不考虑地理距离,与图像检索 [13] 一致。虽然基于重叠的 PR 镜像基于内容的图像搜索,但其在机器人 SLAM 和导航中的实用性仍不明朗。例如,图3 说明了从不同视点观察同一地标(例如,一座建筑物)的两张图像:尽管视觉重叠,推断其相对位置并非易事。基于位置的 PR 更好地支持如全局定位 [8] 等任务,这些任务优先考虑粗略姿态估计。然而,没有一个范式普遍解决所有 PR 挑战。因此,我们强调有效 PR 为两个标准的交集:(1) 地理邻近性:位置共享有意义的空間邻接性,以及 (2) 视觉一致性:观察展示可测量的场景重叠或描述符相似性。

图3. 在基于位置的 PR 中,重点是识别查询图像是否与数据库图像位于同一位置。例如,在提供的图像中,基于位置的 PR 将识别查询1图像匹配数据库图像,但拒绝地理上遥远的查询2,并视为不同位置。然而,基于重叠的 PR 将两个查询图像分类为同一位置,因为它们与数据库共享视觉重叠(由红色框表示)。但查询2 对下游导航任务的实用性有限。

2) 公式化

有效 PR 假设查询图像捕获位置 Q 的有效数据库图像必须满足:

  • 几何约束:候选位置 P ∈ P 距离 Q 的阈值距离 δ 内:
    d(P, Q) < δ, (1)
    其中 d(·, ·) 测量平移或旋转距离。

  • 视觉约束:它们的全局描述符 g_P 和 g_Q 与相似性阈值 ϵ 展示高相似性:
    ∥g_P − g_Q∥ < ϵ. (2)

这一公式化排除模糊情况(例如,墙两侧的位置或从远处观察同一地标的视点)。PR 方法仅在检索满足两个条件的场所时成功,确保对感知混叠的鲁棒性,同时保持空间相关性。

B. 挑战

如图4 总结,解决真实世界机器人自主性的基于位置的 PR 问题需要解决五个特定类别的实际挑战:

  1. 外观变化:与短期导航相比,长期操作可能包含不同照明条件或结构变化下的外观变化(即停车场和建筑工地),这将引入进一步的定位失败。

  2. 视点差异:这个问题源于传感器捕获环境的方式变化,受传感器视点、位置和内在属性影响。例如,一座建筑的前视图暴露其完整形状,而俯视视角突出布局和屋顶设计。此类视点变化在机器人从不同角度或高度重新访问位置时尤为明显。这一挑战在所有传感器类型中普遍存在,需要 PR 系统纳入鲁棒的特征提取和匹配模块来适应这些视角变化。

图4. 真实世界 PR 的挑战。 在真实世界导航任务中,机器人可能遇到以下挑战:(a) 由于时间变化(照明、季节)导致的视觉外观变化 [14],(b) 同一区域的不同视点差异,© 访问新未知区域 [15],(d) 部署到真实世界机器人时的效率影响 [16],以及 (e) 数据和模态的不确定性估计 [17]。

  1. 泛化能力:对于终身导航,环境的巨大复杂性使泛化到未见区域成为关键挑战。PR 方法必须启用在线学习以随时间适应,这是如空间探索等任务的基本要求,其中机器人对其他行星进行长期调查,几乎没有人类监督。机器人需要持续学习和调整到新环境的能力。

  2. 资源受限平台的效率:部署 PR 算法,特别是那些需要在线微调的算法,在资源受限的机器人平台上是一个主要挑战,特别是空中机器人。有效算法必须在准确性和计算效率之间取得平衡。这对单机器人和多机器人系统至关重要,这些系统经常遇到带宽限制和潜在通信中断。

  3. 不确定性估计:生成信念分布以评估可能性或置信度、识别分布外数据并评估 PR 算法可靠性,对下游导航任务如 PGO 和映射至关重要。但准确估计和限定似然函数具有挑战性。

基于上述公式化和挑战,以下部分将深入关联研究。

III. 描述位置:表示

PR 的基础在于位置如何表示为地图,然后与传入的传感器数据比较。根据现有表示格式,我们将其分类为低级、传感器特定的表示和高級、传感器无关的表示。

A. 低级表示

这种方法将位置表示为原始表示的数据库:图像、点云或从原始数据提取的特征,使用针对特定传感器的特定方法。

1) 传感器选择标准

相机、LiDAR(光检测与测距)和雷达(无线电检测与测距)是 PR 中的典型传感器,如图5所示。重要的选择标准包括视野 (FoV)、信息密度和各种条件下的鲁棒性。帧相机提供高分辨率图像,而事件相机在低光和减少运动模糊方面表现更好。LiDAR 生成精确的 3D 点云,但分辨率低。雷达提供长距离能力,并在恶劣天气中表现出色,还通过多普勒效应测量相对速度。为 PR 选择合适的传感器或传感器组合取决于精度、范围和环境适宜性的具体要求。

图5. 多样传感器模态和观察属性。 上框包含不同镜头 [18] 和成像传感器 [19] 的各种相机设置。下左框显示主要 LiDAR 类型、点云和使用点云圆柱投影的多通道图像 [20]。下右框显示典型雷达和以极坐标和笛卡尔图像表示的数据 [21]。

2) 相机相关方法

VPR 是最彻底调查的问题。如先前综述(第一节 B)突出,它已通过手工和数据驱动方法全面探索。

手工 VPR 方法:VPR 中的手工表示一般分为局部和全局特征描述符。局部描述符如 SURF [22] 识别一组关键点并计算对应描述符用于局部图像区域,但需要广泛匹配来比较图像间的视觉相似性。相反,全局描述符如 Gist [23]、CoHOG [24] 和 BoW [25] 将局部特征聚合为统一描述符,如向量或矩阵,以捕获图像的整体模式,而无需局部匹配。更多关于传统方法的回顾可参考此综述论文 [2]。虽然有效,但这些手工方法通常不如数据驱动的深度学习方法,后者提供更高的准确性和鲁棒性。

数据驱动 VPR 方法:数据驱动方法 [26]–[33],特别是那些利用深度神经网络 (DNN) 的方法,从训练数据自动学习特征,减少对广泛手工设计和领域专长的需求。通常采用两步管道来增强 PR 鲁棒性:(1) 通过比较查询和数据库数据之间的全局描述符进行初始匹配和候选选择,以及 (2) 使用选定候选之间的局部特征精炼匹配进行重排序。CNN 的出现为生成视觉表示提供了新方式,已证明在各种类别级识别任务中成功 [34], [35]。NetVLAD [26] 的引入代表了数据驱动 VPR 的重大进步,使用 CNN 将图像转换为特征图,并使用可微分 VLAD(局部聚合描述符向量)池化层创建全局描述符。后来方法精炼了特征提取和聚合,如区域最大卷积激活 (R-MAC) [36] 和广义均值 (GeM) [29], [30] 作为有效的 VLAD 替代品。最近努力还探索了将全局描述符与局部特征连接。

而非仅关注从图像增强局部特征提取,研究人员日益强调这些特征之间的关系,这些关系封装了有价值的语义信息。注意力机制和 transformer 架构通过动态加权整个图像的特征关系来解决这一需求,克服 CNN 的受限感受野,同时促进更鲁棒的上下文语义。Retriever [37] 使用跨注意力,以及 TransVPR [31] 使用多尺度自注意力。除了 transformer,MixVPR [28] 受各向同性全 MLP 架构如 MLP-Mixer [38] 的启发,提出了一种新颖的全 MLP 聚合,在一阶段中表现竞争。SALAD [39] 使用 Sinkhorn 算法 [40] 的最优传输方法解决 NetVLAD 中的分配问题。在广泛数据集上预训练的基础模型,如 DINOv2 [41],在 VPR 中展示强大的零样本和少样本泛化能力。方法如 AnyLoc [32] 和 SelaVPR [33] 利用 DINOv2 实现最先进结果。此外,由全局描述符生成的 PR 结果仍不够准确,特别是对于需要高 top-1 召回率的机器人导航任务。为了增强准确性,几个方法集成本地特征。Patch-NetVLAD [27] 通过使用带有 NetVLAD 的补丁生成子全局描述符开创了重排序。R2former [42] 提供了计算重排序分数的端到端方法。各种研究努力通过集成多样线索如语义、几何、事件数据来拓宽范围以提升位置表示。语义的使用包括过滤特定像素 [43] 和调整特征嵌入权重 [44] 的方式。几何线索,如地标的 3D 位置,提供互补结构信息给视觉描述符并增强 PR 准确性 [45]。事件相机,具有比帧相机更高的动态范围,也已被用于 VPR 以在低光条件下捕获纹理信息。Lee 等 [46] 提出使用事件相机在低光条件下捕获纹理信息,从事件数据构建基于边缘的图像以实现 PR。

3) 范围传感器相关方法

LPR 研究取得了显著进展,由 LiDAR 在自动车辆和测绘领域的广泛应用驱动。然而,LiDAR 测量主要存储为点云,其稀疏性和缺乏有序结构为传统 2D 卷积操作带来挑战。为了利用 CNN,LPR 解决方案采用先进的点云学习架构,包括 PointNet [47] 和 Minkowski Engine [48]。雷达基 PR (RPR) 研究虽不成熟,但正在增长,努力集中在增强雷达感知以实现全天候功能。以下部分将突出 LPR 中的多样表示技术,然后介绍 RPR 研究的初步进展。

手工 LPR 方法:早期方法如 ScanContext [49] 和 ScanContext++ [50] 将 LiDAR 点云编码为鸟瞰视图 (BEV) 图像,其中像素强度表示高度信息。在此基础上,Wang 等 [51] 通过 LiDAR IRIS 增强 LiDAR PR 的旋转不变性,利用 LoG-Gabor 滤波器改进特征提取。一项工作扩展了 ScanContext 用于与 OpenStreetMap 数据地图匹配 [52],而 Ring++ [53] 将 Radon 和傅里叶变换应用于 BEV 图像,通过频域分析增强特征表示。最近创新如 BTC [54] 采用几何描述符,通过将关键点投影到平面并从其空间关系派生三角特征。

数据驱动 LPR 方法:VPR 中观察到的向数据驱动特征学习的转变已扩展到 LRP,由神经网络从原始传感器数据学习复杂几何关系的能力驱动。然而,为非结构化 3D 点云实现传统架构如 CNN 和 Transformer 需要专用网络设计(例如,点-体素 transformer)或几何预处理,以调和不规则点分布与结构化计算范式。LPR 的早期进展通过点基方法出现,以 PointNet [47] 和 PointSift [55] 为例,这些方法无需体素化处理原始点云。PointNetVLAD [56] 通过合并 PointNet 的几何特征提取与 NetVLAD 的描述符学习建立了基础框架。随后努力扩展了这一范式:LPD-Net [57] 引入基于图的邻域建模以编码空间关系,而 SOE-Net [58] 通过由 PointSift 派生的方向嵌入引导的自注意力机制增强局部特征。然而,基于 PointNet 的方法的一个关键限制在于其对视点旋转的敏感性,在大方向变化下性能下降 [57]。为解决此问题,RPR-Net [59] 集成了旋转不变 SPRIN 主干 [60],展示了改进的鲁棒性。尽管取得了进展,点基方法面临与点云密度二次复杂度增长的可扩展性约束,限制其实时部署的实用性。而非直接在神经网络中操纵点,LPR 方法的两个替代类别利用体素化 [61]–[63] 和基于投影的技术 [64]–[66]。这些方法分别将点云转换为 3D 体素和 2D 网格,作为网络输入前的准备阶段。对于前者,MinkLoc3D [61] 采用稀疏 3D 卷积进行特征提取。其继任者 MinkLoc3D-SI [62] 为每个 3D 点纳入球坐标和强度数据。除了利用稀疏卷积,LoGG3D-Net [63] 额外引入局部一致性损失,引导网络在重新访问时一致学习局部特征。最初,点基和体素基方法都难以处理大视点差异。然而,通过有效利用点云投影,这些差异可以通过先进的图像处理技术更容易缓解。LPR 中的基于投影的方法在方法上多样化。圆柱投影将点云旋转转换为 2D 图像中的平移,提供偏航不变性用于卷积处理。OverlapNet 系列 [20], [67] 利用此方法,创建包含范围、强度、法线和语义信息的多通道图像,将 PR 重新定义为基于扫描重叠的分类任务。RINet [68] 进一步推进它,使用语义和几何特征与注意力机制。球形投影,如 SphereVLAD 系列 [64], [69] 使用的,提供 3-DoF 旋转不变性,对一致 3D 坐标编码至关重要。其他投影方法包括 DiSCO [70],它应用可微分类似于 ScanContext 的表示使用极坐标投影,以及 BEVPlace [66],它将点云转换为 BEV 图像,并设计旋转不变网络。重排序机制也被纳入 LPR。不像 Patch-NetVLAD,SpectralGV [71] 通过使用谱匹配计算匹配置信度扩展这一方法。TReR [72] 引入基于 transformer 的重排序方法,仅依赖全局描述符,绕过本地特征的需求。

数据驱动 RPR 方法:RPR 技术主要利用从雷达测量派生的极坐标和笛卡尔图像。Kidnapped Radar [73] 利用 CNN 主干处理极坐标图像进行特征提取。AutoPlace [74] 通过使用多普勒测量消除移动物体并应用专用网络编码雷达点云来增强准确性,集成空间和时间维度,并进一步使用雷达截面直方图精炼匹配。mmPlace [75] 设计了一个旋转单芯片雷达平台以扩大 FoV。此外,RPR 的进展通过探索序列匹配 [76]、与 LiDAR [77] 和头顶图像 [78] 的跨模态数据匹配、自监督融合 [78] 和数据增强 [79] 策略来实现。

B. 各种格式的高级表示

PR 中的高级表示提供环境结构的语义抽象,偏离依赖原始几何原语或传感器特定测量的低级基于特征的方法。它们通过结构化格式如图或学习嵌入捕获拓扑关系和上下文属性。基于图的方法建模空间-语义交互(例如,对象邻接),而神经嵌入将多模态输入(图像、点云、文本)投影到统一描述符空间,通过固定维度向量连接实现跨域兼容性。这种抽象不仅使 PR 系统脱离传感器依赖,还促进关于位置身份的层次推理。在本节中,我们分析高级表示的设计原则,调查其在现代 PR 框架中的实现,并揭示其演变和提升 PR 性能的作用。

1) 图

图,包括基于对象图和 3D 场景图,最近已成为位置的强大表示。图是一种数学结构,用于建模对象之间的成对关系。它由顶点(也称为节点)和边组成,其中顶点表示对象,边表示它们之间的连接或关系。在 PR 上下文中,这些实体可以是特征、地标或区域,边可以表示空间或拓扑关系。图表示提供几个优势,包括对视点变化、遮挡和动态场景的鲁棒性。它们还可以存储语义标签 [80] 以增强 PR 准确性。最近研究 [80]–[85] 引入了各种图模型来描绘位置和环境。共可见图描绘地标与传感器观察这些地标的 different 视点之间的关系 [86]。Kong 等 [81] 构建了语义图,抽象对象实例及其相对位置。LOCUS [82] 采用时空高阶池化图来合并包括外观、拓扑和时间链接的特征,用于统一场景描绘。拓扑语义图设计用于目标导向探索 [83]。Hydra [80] 系统构建 3D 场景图,以从低级度量地图到高级对象语义的层次图结构表示位置。比较两个图的相似性成为 PR 中的关键挑战。相关解决方案包括图核公式化 [86]、来自图神经网络的特征内积 [81]、特征池化后的欧几里德距离 [82] 和层次描述符匹配 [80]。

图6. (上) 一座建筑物被 Hydra 系统 [80] 抽象为层次 3D 场景图。(下) Hydra 呈现层次 PR 解决方案。

2) 嵌入

隐式嵌入从根本上不同于全局描述符(第三节 A):虽然描述符明确针对 PR 训练,嵌入是从针对无关任务优化的网络的通用潜在代码。尽管缺乏 PR 特定训练,这些嵌入通过其原生目标编码环境语义。虽然 RNR-Map [87] 的 2D 网格嵌入通过体积渲染技术从图像观察训练,但它们本质上捕获可用于 PR 的空间-外观特征,通过互相关。它们的双重效用源于架构约束:启用渲染的相同潜在代码也结构化信息为适合位置匹配的格式,证明任务无关嵌入可以实现 PR。最近工作探索了图像-语言描述符用于 PR,利用视觉-语言模型 (VLM) 链接视觉和文本信息 [88]–[90]。CLIP 模型 [91] 通过对比学习对齐图像和文本,将两种模态投影到共享嵌入空间,其中语义相关的视觉和文本表示展示高相似性。LEXIS [88] 进一步将 CLIP 特征与拓扑图节点集成,用于室内、房间级 PR,使用余弦相似性衡量图像和房间文本编码之间的距离。这些方法启用 PR 中的基于语言的数据融合,展示了增强对条件、视点变化和整体泛化能力的弹性。嵌入超越传统字符串比较 [92],通过解决同义词差异,尽管字符串不同。例如,同义词如“走廊”和“大厅”通过语义对齐产生相似嵌入,避免精确文本匹配的脆弱性。

3) 其他

几个新颖表示也为 PR 呈现潜力。例如,研究人员使用视点合成方法 [93]–[95] 来增加数据库图像的密度。Qi 等 [96] 利用 GS 存储多模态数据(包括图像和点云),消除对不同传感器单独特征提取模块的需求。此外,Brachmann 等 [97] 开发了一个回归网络,通过将整个场景编码为神经网络参数隐式学习位置表示,在存储和隐私保护方面提供优势。此方法分类为场景坐标回归 [98], [99]:从查询图像回归到全局场景的 3D-2D 对应。

C. 摘要

位置表示方法取得了显著演变。早期方法依赖需要大量领域专长的手工特征。该领域过渡到预训练神经网络用于特征提取,启用如 NetVLAD 针对 PR 的端到端解决方案。高级表示引入了对视点和环境变化的鲁棒性,同时启用多模态融合。最近的视觉 transformer (ViTs) 和基础模型,在大规模数据集上训练,进一步推进了跨域的零样本泛化。以下部分讨论利用这些表示的位置匹配策略,解决机器人导航中的实际挑战。

图7. 外观变化的两个典型解决方案。(1) i3dLoc [65] 将全景图像从 RGB 颜色域转换为深度图像域,促进与 LiDAR 测量的数据关联。此方法属于位置建模类别,因为它明确建模环境的 3D 外观。(2) SeqNet [104] 是基于序列的方法,因为它使用学习序列描述符比较图像序列。

IV. 针对挑战识别正确位置

如第二节所述,PR 的主要挑战可分类为五种:(1) 外观变化,(2) 视点差异,(3) 泛化能力,(4) 效率,以及 (5) 不确定性估计。我们将分别调查它们并回顾现有解决方案。

A. 外观变化

PR 中常见两种变化:

  • 条件变化,包含由环境条件引起的出现变化,如照明、天气和季节。这种变化主要影响相机随时间观察,导致感知混叠和错误数据关联。
  • 结构变化,包含动态对象、几何变换和短期或长期导航中的地貌变化。这些变化可能由于自然现象(如季节变化和天气条件)或人类活动(如建设和城市发展)引起。它们主要影响范围传感器的测量。

存在两类具有互补优势的解决方案来应对外观变化 [128]:(1) 位置建模,旨在提取条件不变特征来表示位置,以及 (2) 使用序列的位置匹配,使用观察序列估计位置相似性。

1) 位置建模

现有解决方案调查了这些策略:利用额外度量和语义线索 [44], [129]、多尺度特征融合 [27] 和域变换(例如,将夜间图像转换为白天视觉) [130]。CALC2.0 [129] 通过纳入语义损失增强关键点提取,确保关键点语义上下文化,而 SRALNet [44] 使用语义作为权重强化局部 CNN 特征。Patch-NetVLAD [27] 通过设计多尺度补丁特征融合机制扩展 NetVLAD,关注局部细节。Yin 等 [130] 提出条件域转移模块 (CDTM) 将原始图像转换为条件不变的模拟图像。此解决方案也有益于跨模态 [65] 和跨视点 [100] 定位。

但位置建模基解决方案仍存在几个挑战。对于条件变化,方法难以在更广泛的环境条件下更好地泛化,特别是当训练数据有限时。对于显著重塑位置空间布局的大结构变化(例如,建筑工地),系统可能在任务期间无法检测和适应变化,而无需人类干预。作为补充,利用序列数据的方法可以在单帧匹配期间避免错配。

2) 使用序列的位置匹配

研究人员探索了序列信息用于 PR,利用机器人导航轨迹的固有时序连续性。然而,这种方法从根本上要求查询和数据库路径共享序列重叠,即访问位置的时序连续性。Milford 等引入 SeqSLAM [102],它用序列对齐替换单图像匹配:使用基本归一化图像描述符聚合连续帧的相似性分数,显著提高了对环境变化的鲁棒性。虽然基础,但 SeqSLAM 面临两个关键限制:(1) 与数据库大小和序列长度缩放的计算复杂度,通过 FastSeqSLAM [131] 中的近似最近邻搜索解决;(2) 对速度变化的敏感性,由 Bampis 等 [132] 的时序过滤 BoW 方法部分缓解。为了平衡召回和效率,SeqNet [104] 引入使用学习序列描述符的层次解决方案生成候选匹配,绕过详尽数据库搜索,同时通过后续序列验证抑制假阳性。这与 [133], [134] 提出的粗到细匹配策略形成对比。

表I 特定 PR 挑战的代表性解决方案。

挑战 解决方案类别
外观变化 位置建模:语义 [44]、域转移 [100]、事件相机 [46], [101]
使用序列的位置匹配:序列匹配 [102]、动态时间规整 [103]、序列描述符 [104]
视点差异 几何:圆柱投影 [20], [70]、多视点投影 [105]、旋转不变描述符 [61]
外观:语义 [106]、全局描述符 [26], [28], [31]、多尺度特征融合 [27]
其他:混合方法 [107]、全向传感器 [65]
泛化能力 网络能力:transformer [31]、基础模型 [32], [41]
损失函数:旋转三元组 [64]、角度 [108]、散度 [109]、软二元交叉熵 [68]、大边距余弦 [30]
增量学习:损失函数 [110], [111]、HMM [112]、双记忆机制 [16]
其他方法:多模态信息 [113]–[115]、域转移 [100]
效率 最优架构:高效主干 [116], [117]
新颖网络设计:脉冲神经网络 [118]
非学习方法:上下文编码 [49]、平面特征 [119]
高效序列匹配:粒子滤波器 [120]、近似世界的最近邻 [121] 和 HMM [122]
不确定性估计 用于 PR:MC Dropout [123]、深度集成 [124]、概率位置嵌入 [125]、自教学不确定性 [126]
用于其他任务:Laplace 逼近 [127]

B. 视点差异

这一挑战由传感器观察环境的视角变化引起。例如,从前视图观察建筑物揭示其完整形状,而俯视视图展示其布局和屋顶设计。视点差异也发生在机器人从不同角度或高度重新访问位置时 [100]。这一问题在所有传感器模态中常见,应由 PR 系统处理,包括鲁棒的特征提取和匹配模块。

应对视点差异的 PR 解决方案可分类为三个主要组:几何、外观基和混合方法,每种利用不同输入类型。

几何方法,主要用于 LPR 系统,包括创新如 OverlapNetTransformer [67],它通过圆柱投影将点云中的偏航差异转换为图像上的平移差异,加上平移不变 CNN 提取特征。RPR-Net [59] 通过利用 SPRIN [135] 旋转不变局部特征和在不同视点内一致的几何约束实现旋转不变 LPR。

外观基方法 旨在识别对视点变化免疫的视觉线索。语义感知 PR 方法,如 Garg 等提出的,促进跨反方向的 PR。技术如 MixVPR [28] 利用注意力加权的补丁令牌和各向同性 MLP 堆栈的全局描述符,保持尽管视点变化的一致性能。EigenPlaces [136] 提出了一种新方法,在不同视角的图像上训练网络。Patch-NetVLAD [27] 关注提取补丁级特征用于全局描述符计算,通过多尺度补丁特征融合策略增强视点不变性。

混合方法,如 AutoMerge [107],纳入基于点(几何)和基于投影(外观)的特征提取。这种组合解决由平移和方向差异引起的问题,为变视点下的 PR 提供鲁棒框架。

大视点差异可能导致观察之间有限重叠,特别是使用指向相反方向的针孔相机。除了上述解决方案,这一挑战也可以通过采用全向传感器如全景相机、LiDAR 和雷达来缓解。现有的研究集中在派生旋转不变特征和描述符,使用方法如极坐标上下文投影 [49]、球谐函数 [65] 和多视点融合 [105] 来增强显著视点变化下的 PR。

图8. 基于几何的不同投影方法可以解决 LPR 的视点差异挑战 [20], [49], [64]。 a) 球形投影 b) 极坐标 BEV c) 圆柱投影

C. 泛化能力

泛化能力表示 PR 算法在训练数据中缺失的环境条件下识别位置的能力。这一能力在处理域偏移时证明关键,如视觉外观变化(例如,日/夜循环)、结构布局(例如,跨城市拓扑差异)或感知条件(例如,透视 vs. 全景成像)。例如,自主机器人必须可靠地在从雪覆盖的乡村道路到密集结构化城市峡谷的场景中操作,尽管训练期间从未遇到这些特定配置。本节介绍增强泛化的四个解决方案类别:域泛化、域适应、损失函数和终身学习。

域泛化 通过最小化训练和测试环境之间的分布差异来训练模型在未见目标域上保持鲁棒性 [137]。基于位置表示的进展如预训练 CNN(例如,VGG [138])、可适应架构如 NetVLAD [26]、注意力机制 [69], [139] 和视觉 Transformer (ViTs) [32],方法显著增强跨域特征转移。另一种解决方案是数据操纵,通过模拟域偏移增强 PR 中的训练多样性:几何变换(例如,旋转和调整大小)、图像擦除模拟遮挡,以及光度合成照明/天气效果 [140]。

域适应 处理训练期间可用无标签目标域数据的场景,启用从标签源域到目标分布的模型适应。Knights 等 [141] 探索了测试时适应域偏移,在训练和测试分布之间无地面真实标签。他们提出 GeoAdapt,使用几何一致性生成伪标签并为目标域适应重新训练模型。编码高级人类知识的语义可以增强 PR 的泛化 [109], [115]。PSE-Match [109] 分别从点云中不同语义(树、建筑物等)提取特征,使描述符在不同环境中更稳定和一致。视觉-LiDAR 融合,如 AdaFusion [113] 和 MinkLoc++ [114] 展示的,增强 PR 中的泛化能力,超越单一传感器所能实现。

损失函数 在训练泛化 PR 模型中也发挥关键作用。三元组损失,一个公认的度量,旨在减少查询-正样本对之间的距离,同时增加与负样本的分离 [26], [56]。为增强方向不变性,Yin 等 [64] 提出旋转三元组损失。角度损失,利用余弦相似性,提供对相似变换的鲁棒性,并在处理空间差异方面有效 [108]。然而,这些度量主要关注簇内和簇间关系距离,在一定程度上忽略了 PR 挑战的多面性。替代地,[109] 中引入散度损失针对变化语义结构。同时,分类基策略如 RINet [68] 将 PR 公式化为分类问题,呈现软二元交叉熵损失用于模型训练。Berton 等 [30] 引入大边距余弦损失,绕过计算昂贵的负样本挖掘,从而启用大规模数据集的可扩展训练。

真实世界环境的固有变异性使详尽训练数据覆盖从根本上不可实现。而非通过海量数据集 [32] 追求不可持续的模型缩放,一种范式转变出现:终身学习 [142](也称为连续学习)模拟生物学习系统,通过在操作部署期间启用自主代理增量集成新域知识,同时保持固定模型容量。AirLoop [110] 提出两个损失函数来保护模型在适应新域时的灾难性遗忘:(1) 关系记忆感知突触损失,为每个模型参数分配重要性权重,从而在训练过程中正则化参数调整;(2) 关系知识蒸馏 (RKD) 损失,设计为保留嵌入空间结构。与 RKD 损失相反,InCloud [111] 设计了高阶角度蒸馏损失。图10 可视化了 InCloud 的关键洞见。CCL [143] 识别 InCloud 中使用三元组损失的限制,并应用对比损失来鼓励模型提取更泛化特征。有方法考虑真实世界机器人应用,讨论于第五节 D。

图9. InCloud [111] 引入 LPR 的增量学习方法,具有创新损失函数,在适应新数据集时保持嵌入结构。 Oxford → MulRan

D. 效率

PR 中的效率涉及系统快速且准确识别先前访问位置的能力,这对实时机器人应用如循环闭合和多代理探索至关重要。传统手工方法,包括 DBoW [25] 和 ScanContext 系列 [49], [50], [144],由于其高效率而广泛采用在实时 SLAM 中。相反,数据驱动方法,虽然满足大规模和长期导航任务的所需性能指标,但往往施加实质计算负担。这引发了解决效率问题的需求。总体而言,效率追求涵盖几个维度:最小化时间延迟、减少内存使用,并在不损害准确性的前提下确保在资源受限设备上的有效操作。探索了各种策略来增强 PR 系统的效率,可大致分类为三个主要方法:针对移动推理的最优架构,专注于设计轻量级系统,能够在计算资源有限的设备上运行。创新神经网络结构,引入旨在减少计算复杂性的新颖架构,而不损害系统准确识别位置的能力。使用先验知识集成的加速匹配,利用额外信息简化识别过程,从而平衡计算需求与识别准确性。

架构优化增强神经网络模型以获得更大效率 [116]。MobileNetV2 设计用于移动设备,引入带有线性瓶颈的反转残差块,优化各种视觉任务的性能和内存效率 [116]。FlopplyNet [145] 提出二元神经网络,具有深度减少和网络调优用于 VPR。Oliver 等 [146] 提供 PR 效率的详尽分析,探索架构优化、池化方法、描述符大小和量化方案。他们的发现表明,在召回性能和资源消耗之间实现平衡是可行的,为面临资源约束的 PR 系统提供设计推荐。研究人员探索了脉冲神经网络 (SNN) [147] 用于 PR,利用其通过离散脉冲处理信息的能力。这种 SNN 中的事件驱动计算,仅由显著输入变化触发,大幅减少能量消耗和计算负载,使其理想用于机器人,其中能量效率和实时处理至关重要。VPRTempo [118] 通过基于像素强度的时序编码增强 PR 效率,用于脉冲时序,启用适合资源有限平台的快速训练和查询。此外,Hussaini 等 [148] 引入三个关键 SNN 进展:模块化架构、集成技术和序列匹配。虽然序列匹配提高定位准确性,但 SeqSLAM [102] 中的暴力方法仍计算密集,尽管集成里程计 [149] 可以增强性能。最近优化效率的努力包括粒子滤波器 [120]、近似最近邻搜索 [121]、维度减少/量化 [150]、用于序列建模的隐马尔可夫模型 (HMM) [122] 和粗到细策略 [104], [133], [151],通过候选序列初始化消除详尽数据库搜索。

E. 不确定性估计

不确定性估计允许 PR 系统评估其结果的可靠性,突出模型预测不确定性的实例。不确定性可用于确定 PR 系统是否性能差或输入数据分布外。不确定性的来源主要包括传感器噪声、模型和环境(例如,重复环境和条件变化)。获得不确定性有时与识别结果同样重要,由于下游任务如 PGO [152]、图合并 [107] 和定位 [153] 的要求。PGO 通常需要解决涉及数千变量的大型优化问题,需要准确加权分数和鲁棒异常值拒绝以防止局部最小值。

贝叶斯神经网络框架是神经网络不确定性估计的先驱方法。通过蒙特卡洛 (MC) Dropout、深度集成和 Laplace 逼近方法逼近网络权重的后验分布 [123], [124], [127], [154]。此外,其中一些方法已应用于语义分割 [154] 和 3D 对象检测 [127] 等任务。然而,它们在推理期间需要密集计算采样。另一种解决方案是将证据理论集成到神经网络中 [155]。通过优化分布的超参数,这种方法在单前向传播中启用精确不确定性估计,从而消除推理期间采样的需求。其中一些方法用于估计 PR 中的不确定性。Cai 等 [126] 将问题公式化为估计度量空间中嵌入的分布。他们提出学生-教师网络 (STUN),其中方差增强的学生网络在预训练教师的指导下,精炼嵌入先验以在单个样本级别评估不确定性。Keita 等 [156] 为 LPR 基准了现有不确定性估计,包括负 MC-Dropout [123]、深度集成 [124]、余弦相似性、概率位置嵌入 (PPE) [125] 和 STUN [126]。他们的发现表明,虽然集成在关键 LPR 数据集上的性能一致超越其他方法,但它们也需要显著计算资源。不确定性估计仍是 PR 中的关键和未解决挑战,由理论和应用之间的差距表征。这一复杂性源于几个关键问题:(1) 对于实时应用平衡不确定性估计的计算成本与准确性。(2) 避免不确定性的过高或过低估计。(3) 新基础模型基 PR 方法的估计方法。(4) 基于序列的 PR 的准确不确定性评估。解决这些挑战将提高 PR 的准确性和可靠性,使机器人能够为后续导航任务做出明智决策。

图10. (a) STUN [126] 提出自教学不确定性估计方法,通过引入方差头。(b) 分别由 STUN 识别为低不确定性和高不确定性识别的 PR 结果。

V. 应用与趋势

展望未来应用,PR 领域内多个潜在途径正在展开。本节界定四个关键方向:(1) 长期和大规模导航 用于移动机器人,(2) 视觉地形相对导航 用于空中机器人,(3) 多代理定位和映射,以及 (4) 实现终身自主性 的潜在途径。对于每个方向,我们深入当前状态和未来机会。

图11. PR 有益于这些机器人应用:(a) 长期和大规模导航 [157],(b) 视觉地形相对导航 [100],© 多代理定位和映射 [158]。(d) 终身自主性 [110]。

A. 长期与大规模导航

要求 PR 的最需求机器人任务是自主导航,包括自动驾驶 [159] 和地下搜索 [160] 等应用。PR 使机器人在已知环境中以拓扑级精度获得其全局位置,尽管环境条件变化。这一能力对安全和可靠导航至关重要,因为它允许机器人 (1) 确定此位置是否之前访问过,(2) 从绑架问题中恢复故障,以及 (3) 随时间逐步更新和增强其导航地图。

1) 简要综述

SLAM 使用 PR 通过识别先前访问的位置来校正累积漂移,尽管环境变化或视点变化。系统如 ORB-SLAM [161] 和 VINS-Mono [162] 集成使用 DBoW2 库 [25] 的 PR 模块,使用 BoW 基全局描述符进行高效循环检测,由几何验证过滤假候选 [163]。基于 LiDAR 和雷达的 SLAM [164], [165] 进一步改进循环闭合,而无需额外相机。

跟踪失败,其中系统无法正确关联相邻帧,通常导致 SLAM 崩溃并诱发绑架问题。失败可能源于运动模糊、遮挡或硬件断开。恢复需要在先前构建的地图中重新定位机器人,比简单循环检测更复杂的 PR 挑战,因为里程计先验不可用。Chen 等 [166] 用基于子地图的 SLAM 系统解决此问题,通过在失败时创建和集成子地图,确保使用 DBoW2 的映射连续性。此外,Kuse 和 Shen [167] 通过引入全对损失函数和解耦卷积优化 [56] 用于 VPR,加速训练收敛并减少参数数量。此解决方案集成到立体-惯性 SLAM 系统,在复杂室内环境中实现实时循环闭合检测和可靠故障恢复。

全局定位 广泛涵盖在预映射区域内确定全局位置的挑战,特别是 GNSS 不可靠时。这一上下文暗示姿态估计的显著初始不确定性。Sarlin 等 [168] 提出使用统一 CNN 结合局部几何特征与全局描述符的层次定位方法,用于大规模环境的精确 6-DoF 定位。Yin 等 [65] 为校园规模区域开发跨模态视觉定位方法,利用跨域转移网络对齐视觉输入与 LiDAR 投影,用于鲁棒长期导航。对于大规模城市道路,Liu 等 [169] 引入集成方向和几何数据的跨视点匹配方法,以提高空间定位召回率。

教并重复 (T&R) 框架是多样移动机器人的高效导航解决方案 [170]。无需构建精确全局地图,它在长距离导航和行星探索等应用中取得了良好性能。在阶段,机器人手动引导沿特定路径生成拓扑地图,可选纳入局部度量数据。随后,在重复阶段,机器人自主在该地图中定位自身以跟随既定路线,展示了即使在变化环境中遍历预定路径的有效方法。因此,T&R 系统需要鲁棒 PR 模块来保证拓扑级精确定位。Chen 等 [171] 为持久 T&R 操作引入序列匹配方案。Mattamala 等 [170] 提出在多相机配置下动态选择重复阶段中最具信息性的相机,缓解突发 PR 变化的影响。PlaceNav [172] 使用 PR 限制拓扑导航的子目标候选数量。

2) 机会

PR 对大规模和长期导航至关重要,从单纯循环闭合检测演变为包括 GNSS 拒绝对全局定位、故障恢复和 T&R 导航的广泛应用。该领域的成熟驱动机器人导航的范式转变,建立空间意识作为直接解决两个关键挑战的主要感知层:(1) 在扩展时间视野上维持大规模定位准确性,以及 (2) 启用动态地图重用/更新机制用于持久环境建模,显著提升任务成功率并启用长水平规划。最近创新如 Hughes 等 [80] 提出的层次 3D 场景图和文本-图像检索系统 [90] 提供新颖 PR 解决方案。随后创新涉及 PR 和对象检测的联合学习,如 [173] 提出的,仅从图像集成空间和语义理解启用场景图构建。此外,PR 还促进任务如对象/图像导向导航(例如,在办公室找到椅子)的有效探索 [174], [175]。这些调查对推进日益复杂、不断变化环境中动态和长期导航策略至关重要。

B. 视觉地形相对导航

VTRN 是 PR 的另一个代表性应用,通过比较机载相机图像(作为观察)与预获取的地理参考卫星图像(作为数据库) [176]。VTRN 在 GNSS 拒绝对环境中特别有价值,利用轻量相机和广泛可及的卫星数据,使其适用于包括无人机和车辆的广泛机器人。但挑战包括环境条件变化(第四节 A)、视点差异(第四节 B)和模型泛化能力受限(第四节 C)。

1) 简要综述

捕获卫星图像和机载传感器图像之间的时间差异通常跨越数年。因此,条件变化主要归因于日夜过渡和季节变化,如照明条件、植被变化和雪覆盖。当前缓解这些变化的策略 [177] 包括图像变换和特征匹配。Bhavit 等 [177] 调查使用归一化信息距离对齐 Google Earth (GE) 卫星图像与无人机图像,在日夜场景中显示其优于传统光度误差测量的优势。在此基础上,引入自编码器网络嵌入原始图像,提高对环境变化的鲁棒性和优化/存储简化 [178]。为处理季节变化,Anthony 等 [176] 应用 U-Net 图像变换模型对齐跨季节图像,在高空特别有效,其中不变几何特征主导跨季节。为处理方向和高度等视点变化,大多数先前研究忽略了视点变化。iSimLoc [100] 利用 NetVLAD 用于局部特征聚合,使用序列数据改进特征匹配。对于地面机器人,Sarlin 等 [179] 引入神经表示用于地面高程图像,仅依赖自我视图图像和相机姿态,自动生成丰富语义。Shi 等 [180] 开发几何增强跨视点 transformer 用于视点对应,而 Tang 等 [181] 提出将 GE 图像转换为 2D 点集合以直接对齐来自 LiDAR 数据的 BEV 图像。

2) 机会

将先进 PR 算法集成到 VTRN 中解锁多个领域的尖端应用新可能性。特别是,这一增强提高了 GNSS 信号被阻塞环境 [100] 中自主移动机器人导航的可靠性。PR 还益于行星探索 [182], [183],提供作为视觉里程计的补充一致全局位置。此外,空中-地面协调引入先进机器人应用的新前景,如环境重建和协作探索。空中图像为全局路径规划和映射贡献宝贵先验知识。通过链接空中与地面图像,PR 算法促进集成空中-地面协作,演化这些系统的功能 [184]。

C. 多代理定位和映射

多代理系统在解决超出单一代理能力的复杂和动态任务中带来关键转变。机器人之间的协作显著提高实现共同目标如协作场景探索 [185] 的效率。然而,实现去中心化多代理合作的一个主要挑战是获得相对于每个机器人的实时相对坐标,这在不确定性和高复杂性环境中变得严重。PR 方法提供一系列解决方案,但如第四节 A 和 B 指出的,不同代理的外观和视点差异将导致多代理合作的数据关联失败。

1) 简要综述

多代理系统 (MAS) 的最近进展引入了用于协作映射和定位的多样 PR 策略。Van 等 [186] 利用压缩视觉特征用于 KITTI 上的高效多会话映射。Sasaki 等 [187] 开发了 rover-copter-orbiter 系统,使用卫星图像用于协调定位和优化 rover 路径。Ebadi 等 [188] 呈现了用于不稳定环境的基于几何的系统,使用鲁棒过滤增强 3D 几何特征可靠性。Kimera-Multi [189] 纳入分布式循环闭合检测,而 Hydra-Multi [190] 启用多机器人 3D 场景图构建,具有层次循环闭合。Labbé 等 [191] 专注于视觉 LCD,支持无初始轨迹变换的多会话映射。这些方法强调多代理定位的演化景观,为未来跨学科研究奠定基础 [192]。然而,挑战仍然存在,特别是大规模地图合并,其中显著视角和外观差异构成障碍。Yin 等 [107] 的最新贡献通过大规模数据关联和地图合并框架解决这些挑战,提取视点不变位置描述符并过滤不可靠循环闭合,标志着该领域的重要一步。

2) 机会

MAS 领域接近一个显著发展时期,PR 显著贡献于自主技术的演变。其中最有前景的途径之一是集成神经映射 [193], [194] 如 3D 高斯溅射 [194],它提供从稀疏和非结构化数据渲染逼真新视点的开创性方法。PR 技术,当应用于系统如虚拟和增强现实时,可以启用代理之间无缝和沉浸式交互,如真实世界大规模多人在线游戏和人机交互。此外,PR 方法促进 MAS 在 GNSS 拒绝对环境如地下场景 [185]、工厂和森林的应用,如无人机群系统 [192] 展示的。利用 MAS 的协调和通信增强危险环境的安全性和效率,从深海和空间探索到灾害响应,减少对通信基础设施的依赖。MAS 还启用创新众包数据收集,如 Tesla FSD 系统 [195] 中观察到的,其中传感器配备车辆网络生成动态城市地图,提高算法训练和自主导航可靠性。

D. 生物启发和终身自主性

空间机器人学的最近进展,如 NASA 的新火星漫游者 Perseverance [182] 和 CNSA 的月球遥控玉兔-2 漫游者 [183],强调了远程操作的挑战和实时通信的限制。这些挑战使长期和真实世界自主性成为未来机器人的关键要求。PR 作为空间和地下探索的关键组件,促进机器人在全局坐标系中一致定位。这一能力对长水平规划和决策至关重要。然而,可用计算资源有限,且 PR 模型在新环境中性能往往下降。因此,开发终身 PR 系统对维持真实世界自主性至关重要。基于第四节 C 的讨论,本节进一步详细说明 PR 如何增强终身机器人系统的能力。

1) 简要综述

Tipaldi 等 [196] 引入传统基于概率的方法用于终身定位,利用粒子滤波器与 HMM 的组合有效评估本地地图的动态变化。Zhao 等 [197] 提出新颖终身 LiDAR SLAM 框架,针对扩展室内导航任务。该框架主要采用多会话映射策略来构建和精炼地图,同时通过基于 Chow-Liu 树的方法 [198] 优化内存使用。值得注意的是,真实世界 SLAM 实现倾向于与不太动态的对象(如停放汽车)挣扎更多,而不是高度动态的对象(如移动车辆)。受此挑战启发,Zhu 等 [199] 开发了语义映射增强的终身定位框架,无缝集成现有对象检测技术来持续更新地图。终身特征学习对导航系统至关重要,但面临灾难性遗忘的挑战,即先前知识的逐渐丢失,特别是在动态环境中。大多数 VPR 方法在短期或静态上下文中操作,并在无性能下降的情况下难以连续适应,如 VPR 基准 [200] 所示。Mactavish 等 [201] 通过多经验定位机制解决此问题,启用在线终身特征学习,通过动态匹配当前观察与过去经验的视觉 T&R 框架。在此基础上,Chen 等 [171] 引入经验图来结构化链接时间上不连续的图像序列,促进网络训练的连续数据聚合。为解决处理无限数据流的终身学习系统的可扩展性挑战,Doan 等 [112] 提出结合 HMM 与两级内存架构的混合方法。通过分离活动内存(用于实时处理)和被动存储(用于长期保留),他们的方法启用高效动态图像转移,确保最小计算开销下的稳定性能。Yin 等 [16] 开发 BioSLAM,用于 VPR 的终身学习框架。BioSLAM 采用双内存系统:动态内存快速同化新观察,静态内存保留基础知识同时集成新洞见。这一设计缓解灾难性遗忘并维持一致 VPR 准确性。作者还引入两个评估指标:适应效率(学习新数据速度)和保留能力(先前知识保留),以展示 BioSLAM 在增量学习场景中优于现有方法。

2) 机会

虽然终身 PR 相对于其他研究方向是一个相对新兴领域,但它呈现显著机会,特别是长期导航任务的内存管理。受具身 AI 进展的激励,PR 方法偏离传统对应依赖使用离线数据库预训练模型的对应物。终身 PR 利用具身智能,启用机器人直接与其环境互动、积累奖励,并从持续数据和经验中学习。这一能力允许机器人执行更复杂任务并在从城市景观到非结构化地形如灾害区域或外星环境中的动态设置中更有效地导航。

VI. 数据集与评估

引入新传感器模态、挑战场景和多样挑战的开放数据集对驱动 PR 方法的发展至关重要。为了公平评估各种 PR 算法的性能并识别其限制,设计良好的评估指标至关重要。在本节中,我们简要介绍几个公共 PR 数据集,提出评估的新视角,并讨论与 PR 相关的开源库。

A. 公共数据集

表 II 提供了几个常用 PR 数据集的摘要,并突出关键因素。

1) VPR 数据集

相关数据集主要针对各种环境条件,包括重复结构 [207]、照明 [93], [208] 和季节 [202]。24/7 Tokyo [93] 和 Pitts 30k [207] 是两个经典 VPR 数据集,因其街景图像特征。Nordland [202]、SVOX [208] 和 Boreas 数据集 [14] 设计用于跨季节 VPR,前者覆盖自然环境,后两者聚焦城市设置。NYC-Event-VPR [209] 数据集提出用于动态城市环境中的基于事件 VPR。在终身 PR 领域,Warburg 等 [15] 引入迄今为止最广泛 VPR 数据集,覆盖七年跨度的城市和郊区设置,并记录各种条件变化。ALIO 数据集 [205] 呈现用于 VTRN 任务的全面数据集,包括原始空中视觉和对应卫星图像。

2) LPR 数据集

LPR 与 VPR 共享许多基准数据集。城市驾驶数据集如 KITTI [210] 和 Oxford RobotCar [203] 有价值用于评估开放道路场景中的 PR。校园环境由 Newer College 数据集 [211] 表示,提供同步 LiDAR 和立体-惯性数据。ALITA 数据集 [157] 以 50 个城市规模(120 个重叠对)和 80 个校园规模轨迹(150 个重叠对)扩展评估多功能性,支持从跨域识别到终身 SLAM 的任务。新兴自然环境数据集 [212]–[214] 解决结构歧义和动态植被等挑战,由林业、农业和地下机器人应用的增长驱动。

3) RPR 数据集

RPR 数据集通常特征各种天气条件下的极端环境,包括雾天和雪天,其中雷达技术展示显著优势。关键数据集如 Oxford RobotCar Radar [206]、MulRan [215] 和 Boreas [14] 展示雷达在挑战可见性条件下的独特能力。

表 II 用于评估 VPR、LPR 和 RPR 的典型数据集。

数据集 场景 长度 传感器 外观多样性 视点多样性 动态
Nordland [202] 火车旅行 748 km PinC 四季
Oxford RobotCar [203] 城市 + 郊区 10 km L, PinC 各种
Mapillary [15] 城市 + 郊区 4228 km PinC 各种
KITTI360 [204] 城市街道 73.7 km L, PinC, PanC 日间
ALTO 205 城市+乡村+自然 50 km 俯视 PinC 日间
ALITA 157 城市 + 地形 120 km L 日间
ALITA 157 校园 60 km L, PanC 日/夜
Oxford Radar RoboCar [206] 城市 280 km L, R, PinC 日/夜、天气、交通

L: LiDAR. R: Radar. PinC: 针孔相机. PanC: 全景相机.

B. 评估的新视角

如第二节概述,PR 的基本属性涵盖条件不变性、视点不变性、识别准确性、泛化能力以及训练和推理成本。利用 VPR-Bench [200] 的一组评估指标,我们提出基于这些属性的方法全面比较。我们选择以下指标 平均精度 (AP)网络参数 (NP)计算时间 (CT) 来阐明 PR 方法的关键特征:

  • 条件不变属性:PR 在不同环境条件如照明和天气变化下的 AP,例如比较夜间查询图像与白天数据库。
  • 视点不变属性:PR 在变化视点下的 AP,例如前向和后向。我们考虑数据库和查询之间的环境条件和传感器固定。
  • 泛化能力:模型训练后在未见环境中的 PR AP,例如评估室内训练方法在城市设置中的性能。
  • 训练和推理成本:分析计算需求,包括 PR 算法所需的 NP 和 CT(提取描述符)。

图12. 两个数据集上的 PR 评估星形图。 我们比较五个 SOTA PR 方法(无微调)使用 ALITA-校园数据集 [157] 的两个子集。数据集1 包含同一位置白天和夜间捕获的两个序列,设计用于评估条件不变性和泛化。day-night 表示测试设置,其中白天图像形成数据库,夜间图像作为查询。除非另有说明,数据库和查询图像随机选择。数据集2 采用类似结构,但聚焦视点不变性。为公平比较和可视化方法性能,我们提供此仓库¹ 中的评估脚本。

¹ https://github.com/MetaSLAM/GPRS

VII. 结论

移动机器人的日益复杂性需要维持在广阔、动态环境中无限自主性的导航系统。PR,使机器人能够在外观变化和视点变化下识别先前访问的位置,已成为机器人自主性的关键。本综述概述了 PR 的显著进展,详细说明其定义、典型表示、克服挑战的策略和多样应用。我们呈现有效 PR 的公式化,与机器人导航的需求关联。聚焦“表示位置”的核心挑战,我们考察从手工特征到数据驱动方法的转变,受益于计算机视觉和机器学习进展,特别是神经网络、开放集对象检测和语义分割。这一范式转变在高级表示中简化 PR 挑战、增强模型泛化,并为 PR 架构设计创造新机会。PR 的真实世界部署面临五个主要挑战:外观变化、视点变化、模型泛化、资源效率和输出不确定性估计。我们回顾这些挑战的关键解决方案,突出研究社区从数据集驱动方法到真实世界环境验证系统的逐渐转向。PR 发展与 SLAM 进展平行,越来越多的研究集成 SOTA PR 方法来改进导航系统。真实世界应用现在从大规模和视觉地形导航扩展到多代理系统、VR/AR 和众包映射。PR 数据集、评估指标和开源库的贡献对推进该领域至关重要。总之,PR 具有推进机器人自主性的巨大潜力。通过本文和我们的未来努力,我们旨在加速向泛化 PR 的进展,塑造机器人系统及其应用未来。

VIII. 致谢

作者感谢 Jingwen Yu、Jianxing Shi、Xinyi Chen 和 Shuyang Zhang 的建设性反馈,以及 Michael Milford 和 Dimitrios Kanoulas 教授对 PR 定义和应用的洞见。我们还承认 ChatGPT (OpenAI) 和 DeepSeek (DeepSeek-AI) 用于文本精炼。

参考文献

[1] C. Cadena 等, “Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age,” IEEE Transactions on Robotics, vol. 32, no. 6, pp. 1309–1332, 2016.
[2] S. Lowry 等, “Visual place recognition: A survey,” IEEE Transactions on Robotics, vol. 32, no. 1, pp. 1–19, 2015.
[3] X. Zhang, L. Wang, and Y. Su, “Visual place recognition: A survey from deep learning perspective,” Pattern Recognition, vol. 113, p. 107760, 2021.
[4] T. Barros 等, “Place recognition survey: An update on deep learning approaches,” arXiv preprint arXiv:2106.10458, 2021.
[5] S. Garg, T. Fischer, and M. Milford, “Where is your place, visual place recognition?” arXiv preprint arXiv:2103.06443, 2021.
[6] M. Zaffar 等, “VPR-bench: An open-source visual place recognition evaluation framework with quantifiable viewpoint and appearance change,” Int. J. Comput. Vision, vol. 129, no. 7, pp. 2136–2174, Jul 2021.
[7] J. Miao 等, “A survey on monocular re-localization: From the perspective of scene map representation,” arXiv preprint arXiv:2311.15643, 2023.
[8] H. Yin 等, “A survey on global lidar localization: Challenges, advances and open problems,” International Journal of Computer Vision, pp. 1–33, 2024.
[9] J. Achiam 等, “Gpt-4 technical report,” arXiv preprint arXiv:2303.08774, 2023.
[10] X. Bi 等, “Deepseek llm: Scaling open-source language models with longtermism,” arXiv preprint arXiv:2401.02954, 2024.
[11] B. Mildenhall 等, “Nerf: Representing scenes as neural radiance fields for view synthesis,” Communications of the ACM, vol. 65, no. 1, pp. 99–106, 2021.
[12] J. O’Keefe, “Place units in the hippocampus of the freely moving rat,” Experimental Neurology, vol. 51, no. 1, pp. 78–109, 1976.
[13] T. Weyand 等, “Google landmarks dataset v2 - a large-scale benchmark for instance-level recognition and retrieval,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 2572–2581.
[14] K. Burnett 等, “Boreas: A multi-season autonomous driving dataset,” The International Journal of Robotics Research, vol. 42, no. 1-2, pp. 33–42, 2023.
[15] F. Warburg 等, “Mapillary street-level sequences: A dataset for lifelong place recognition,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 2623–2632.
[16] P. Yin 等, “Bioslam: A bioinspired lifelong memory system for general place recognition,” IEEE Transactions on Robotics, 2023.
[17] J. M. Dolezal 等, “Uncertainty-informed deep learning models enable high-confidence predictions for digital histopathology,” Nature Communications, vol. 13, no. 1, p. 6572, 2022.
[18] D. Scaramuzza, Omnidirectional Camera. Boston, MA: Springer US, 2014, pp. 552–560.
[19] J. Jiao 等, “Fusionportable: A multi-sensor campus-scene dataset for evaluation of localization and mapping accuracy on diverse platforms,” in 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022, pp. 3851–3856.
[20] X. Chen 等, “Overlapnet: Loop closing for lidar-based SLAM,” CoRR, vol. abs/2105.11344, 2021.
[21] Z. Hong 等, “Radarslam: A robust simultaneous localization and mapping system for all weather conditions,” The International Journal of Robotics Research, vol. 41, no. 5, pp. 519–542, 2022.
[22] H. Bay, T. Tuytelaars, and L. Van Gool, “SURF: Speeded up robust features,” in Computer Vision–ECCV 2006: 9th European Conference on Computer Vision, Graz, Austria, May 7-13, 2006. Proceedings, Part I 9. Springer, 2006, pp. 404–417.
[23] A. Oliva and A. Torralba, “Building the gist of a scene: The role of global image features in recognition,” Progress in Brain Research, vol. 155, pp. 23–36, 2006.
[24] M. Zaffar, S. Ehsan, M. Milford, and K. McDonald-Maier, “Co-hog: A light-weight, compute-efficient, and training-free visual place recognition technique for changing environments,” IEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 1835–1842, 2020.
[25] D. Gálvez-López and J. D. Tardos, “Bags of binary words for fast place recognition in image sequences,” IEEE Transactions on Robotics, vol. 28, no. 5, pp. 1188–1197, 2012.
[26] R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, “Netvlad: Cnn architecture for weakly supervised place recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 5297–5307.
[27] S. Hausler, S. Garg, M. Xu, M. Milford, and T. Fischer, “Patch-netvlad: Multi-scale fusion of locally-global descriptors for place recognition,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14 136–14 147.
[28] A. Ali-Bey, B. Chaib-Draa, and P. Giguere, “MixVPR: Feature mixing for visual place recognition,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023, pp. 2998–3007.
[29] F. Radenović, G. Tolias, and O. Chum, “Fine-tuning cnn image retrieval with no human annotation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 7, pp. 1655–1668, 2018.
[30] G. Berton, C. Masone, and B. Caputo, “Rethinking visual geo-localization for large-scale applications,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 4878–4888.
[31] R. Wang, Y. Shen, W. Zuo, S. Zhou, and N. Zheng, “Transvpr: Transformer-based place recognition with multi-level attention aggregation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 13 648–13 657.
[32] N. Keetha, A. Mishra, J. Karhade, K. M. Jatavallabhula, S. Scherer, M. Krishna, and S. Garg, “Anyloc: Towards universal visual place recognition,” IEEE Robotics and Automation Letters, 2023.
[33] F. Lu, L. Zhang, X. Lan, S. Dong, Y. Wang, and C. Yuan, “Towards seamless adaptation of pre-trained models for visual place recognition,” in The Twelfth International Conference on Learning Representations, 2024.
[34] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Commun. ACM, vol. 60, no. 6, pp. 84–90, May 2017.
[35] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva, and A. Torralba, “Places: A 10 million image database for scene recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 6, pp. 1452–1464, 2017.
[36] G. Tolias, R. Sicre, and H. Jégou, “Particular object retrieval with integral max-pooling of cnn activations,” arXiv preprint arXiv:1511.05879, 2015.
[37] L. Wiesmann, R. Marcuzzi, C. Stachniss, and J. Behley, “Retriever: Point cloud retrieval in compressed 3d maps,” in 2022 International Conference on Robotics and Automation (ICRA), 2022, pp. 10 925–10 932.
[38] I. O. Tolstikhin 等, “Mlp-mixer: An all-mlp architecture for vision,” Advances in Neural Information Processing Systems, vol. 34, pp. 24 261–24 272, 2021.
[39] S. Izquierdo and J. Civera, “Optimal transport aggregation for visual place recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 17 658–17 668.
[40] M. Cuturi, “Sinkhorn distances: Lightspeed computation of optimal transport,” Advances in Neural Information Processing Systems, vol. 26, 2013.
[41] M. Oquab 等, “Dinov2: Learning robust visual features without supervision,” arXiv preprint arXiv:2304.07193, 2023.
[42] S. Zhu, L. Yang, C. Chen, M. Shah, X. Shen, and H. Wang, “R2former: Unified retrieval and reranking transformer for place recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 19 370–19 380.
[43] N. Piasco, D. Sidibé, V. Gouet-Brunet, and C. Demonceaux, “Learning scene geometry for visual localization in challenging conditions,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 9094–9100.
[44] G. Peng, Y. Yue, J. Zhang, Z. Wu, X. Tang, and D. Wang, “Semantic reinforced attention learning for visual place recognition,” in 2021 IEEE International Conference on Robotics and Automation (ICRA), 2021, pp. 13 415–13 422.
[45] A. Oertel, T. Cieslewski, and D. Scaramuzza, “Augmenting visual place recognition with structural cues,” IEEE Robotics and Automation Letters, vol. 5, no. 4, pp. 5534–5541, 2020.
[46] A. J. Lee and A. Kim, “EventVLAD: Visual place recognition with reconstructed edges from event cameras,” in 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2021, pp. 2247–2252.
[47] R. Q. Charles, H. Su, M. Kaichun, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classification and segmentation,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 77–85.
[48] C. Choy, J. Gwak, and S. Savarese, “4d spatio-temporal convnets: Minkowski convolutional neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3075–3084.
[49] G. Kim and A. Kim, “Scan context: Egocentric spatial descriptor for place recognition within 3d point cloud map,” in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2018, pp. 4802–4809.
[50] G. Kim, S. Choi, and A. Kim, “Scan context++: Structural place recognition robust to rotation and lateral variations in urban environments,” IEEE Transactions on Robotics, vol. 38, no. 3, pp. 1856–1874, 2022.
[51] Y. Wang, Z. Sun, C.-Z. Xu, S. E. Sarma, J. Yang, and H. Kong, “Lidar iris for loop-closure detection,” in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020, pp. 5769–5775.
[52] Y. Cho, G. Kim, S. Lee, and J.-H. Ryu, “Openstreetmap-based lidar global localization in urban environment without a prior lidar map,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 4999–5006, 2022.
[53] X. Xu, S. Lu, J. Wu, H. Lu, Q. Zhu, Y. Liao, R. Xiong, and Y. Wang, “Ring++: Roto-translation invariant gram for global localization on a sparse scan map,” IEEE Transactions on Robotics, vol. 39, no. 6, pp. 4616–4635, 2023.
[54] C. Yuan, J. Lin, Z. Liu, H. Wei, X. Hong, and F. Zhang, “Btc: A binary and triangle combined descriptor for 3-d place recognition,” IEEE Transactions on Robotics, vol. 40, pp. 1580–1599, 2024.
[55] M. Jiang, Y. Wu, T. Zhao, Z. Zhao, and C. Lu, “Pointsift: A sift-like network module for 3d point cloud semantic segmentation,” arXiv preprint arXiv:1807.00652, 2018.
[56] M. A. Uy and G. H. Lee, “Pointnetvlad: Deep point cloud based retrieval for large-scale place recognition,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 4470–4479.
[57] Z. Liu, S. Zhou, C. Suo, P. Yin, W. Chen, H. Wang, H. Li, and Y. Liu, “Lpd-net: 3d point cloud learning for large-scale place recognition and environment analysis,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 2831–2840.
[58] Y. Xia, Y. Xu, S. Li, R. Wang, J. Du, D. Cremers, and U. Stilla, “Soe-net: A self-attention and orientation encoding network for point cloud based place recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 11 348–11 357.
[59] Z. Fan, Z. Song, W. Zhang, H. Liu, J. He, and X. Du, “Rpr-net: A point cloud-based rotation-aware large scale place recognition network,” in European Conference on Computer Vision. Springer, 2022, pp. 709–725.
[60] Y. You, Y. Lou, R. Shi, Q. Liu, Y.-W. Tai, L. Ma, W. Wang, and C. Lu, “Prin/sprin: On extracting point-wise rotation invariant features,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, no. 12, pp. 9489–9502, 2021.
[61] J. Komorowski, “Minkloc3d: Point cloud based large-scale place recognition,” in 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), 2021, pp. 1789–1798.
[62] K. Żywanowski, A. Banaszczyk, M. R. Nowicki, and J. Komorowski, “Minkloc3d-si: 3d lidar place recognition with sparse convolutions, spherical coordinates, and intensity,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 1079–1086, 2022.
[63] K. Vidanapathirana, M. Ramezani, P. Moghadam, S. Sridharan, and C. Fookes, “Logg3d-net: Locally guided global descriptor learning for 3d place recognition,” in 2022 International Conference on Robotics and Automation (ICRA), 2022, pp. 2215–2221.
[64] P. Yin, F. Wang, A. Egorov, J. Hou, Z. Jia, and J. Han, “Fast sequence-matching enhanced viewpoint-invariant 3-d place recognition,” IEEE Transactions on Industrial Electronics, vol. 69, no. 2, pp. 2127–2135, 2022.
[65] P. Yin, L. Xu, J. Zhang, H. Choset, and S. Scherer, “i3dloc: Image-to-range cross-domain localization robust to inconsistent environmental conditions,” in Proceedings of Robotics: Science and Systems (RSS ’21). Robotics: Science and Systems 2021, 2021.
[66] L. Luo, S. Zheng, Y. Li, Y. Fan, B. Yu, S.-Y. Cao, J. Li, and H.-L. Shen, “Bevplace: Learning lidar-based place recognition using bird’s eye view images,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 8700–8709.
[67] J. Ma, J. Zhang, J. Xu, R. Ai, W. Gu, and X. Chen, “Overlaptransformer: An efficient and yaw-angle-invariant transformer network for lidar-based place recognition,” IEEE Robotics and Automation Letters, vol. 7, no. 3, pp. 6958–6965, 2022.
[68] L. Li, X. Kong, X. Zhao, T. Huang, W. Li, F. Wen, H. Zhang, and Y. Liu, “Rinet: Efficient 3d lidar-based place recognition using rotation invariant neural network,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 4321–4328, 2022.
[69] S. Zhao, P. Yin, G. Yi, and S. Scherer, “Spherevlad++: Attention-based and signal-enhanced viewpoint invariant descriptor,” 2022.
[70] X. Xu, H. Yin, Z. Chen, Y. Li, Y. Wang, and R. Xiong, “Disco: Differentiable scan context with orientation,” IEEE Robotics and Automation Letters, vol. 6, no. 2, pp. 2791–2798, 2021.
[71] K. Vidanapathirana, P. Moghadam, S. Sridharan, and C. Fookes, “Spectral geometric verification: Re-ranking point cloud retrieval for metric localization,” IEEE Robotics and Automation Letters, vol. 8, no. 5, pp. 2494–2501, 2023.
[72] T. Barros, L. Garrote, M. Aleksandrov, C. Premebida, and U. J. Nunes, “Trer: A lightweight transformer re-ranking approach for 3d lidar place recognition,” in 2023 IEEE 26th International Conference on Intelligent Transportation Systems (ITSC), 2023, pp. 2843–2849.
[73] S. Saftescu, M. Gadd, D. De Martini, D. Barnes, and P. Newman, “Kidnapped radar: Topological radar localisation using rotationally-invariant metric learning,” in 2020 IEEE International Conference on Robotics and Automation (ICRA), 2020, pp. 4358–4364.
[74] K. Cait, B. Wang, and C. X. Lu, “Autoplace: Robust place recognition with single-chip automotive radar,” in 2022 International Conference on Robotics and Automation (ICRA), 2022, pp. 2222–2228.
[75] C. Meng, Y. Duan, C. He, D. Wang, X. Fan, and Y. Zhang, “mmplace: Robust place recognition with intermediate frequency signal of low-cost single-chip millimeter wave radar,” IEEE Robotics and Automation Letters, 2024.
[76] M. Gadd, D. De Martini, and P. Newman, “Look around you: Sequence-based radar place recognition with learned rotational invariance,” in 2020 IEEE/ION Position, Location and Navigation Symposium (PLANS), 2020, pp. 270–276.
[77] H. Yin, X. Xu, Y. Wang, and R. Xiong, “Radar-to-LiDAR: Heterogeneous place recognition via joint learning,” Frontiers in Robotics and AI, vol. 8, p. 661199, 2021.
[78] T. Y. Tang, D. D. Martini, S. Wu, and P. Newman, “Self-supervised learning for using overhead imagery as maps in outdoor range sensor localization,” The International Journal of Robotics Research, vol. 40, no. 12-14, pp. 1488–1509, 2021.
[79] M. Gadd, D. De Martini, and P. Newman, “Contrastive learning for unsupervised radar place recognition,” in 2021 20th International Conference on Advanced Robotics (ICAR), 2021, pp. 344–349.
[80] N. Hughes, Y. Chang, and L. Carlone, “Hydra: A real-time spatial perception system for 3D scene graph construction and optimization,” 2022.
[81] X. Kong, X. Yang, G. Zhai, X. Zhao, X. Zeng, M. Wang, Y. Liu, W. Li, and F. Wen, “Semantic graph based place recognition for 3d point clouds,” in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020, pp. 8216–8223.
[82] K. Vidanapathirana, P. Moghadam, B. Harwood, M. Zhao, S. Sridharan, and C. Fookes, “Locus: Lidar-based place recognition using spatiotemporal higher-order pooling,” in 2021 IEEE International Conference on Robotics and Automation (ICRA), 2021, pp. 5075–5081.
[83] N. Kim, O. Kwon, H. Yoo, Y. Choi, J. Park, and S. Oh, “Topological semantic graph memory for image-goal navigation,” in Conference on Robot Learning. PMLR, 2023, pp. 393–402.
[84] E. Stumm, C. Mei, and S. Lacroix, “Probabilistic place recognition with covisibility maps,” in 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013, pp. 4158–4163.
[85] N. Wang, X. Chen, C. Shi, Z. Zheng, H. Yu, and H. Lu, “Sglc: Semantic graph-guided coarse-fine-refine full loop closing for lidar slam,” IEEE Robotics and Automation Letters, 2024.
[86] E. Stumm, C. Mei, S. Lacroix, J. Nieto, M. Hutter, and R. Siegwart, “Robust visual place recognition with graph kernels,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 4535–4544.
[87] O. Kwon, J. Park, and S. Oh,

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐