EZREAL：增强多变能见度下的远距离目标零样本户外机器人导航

《EZREAL：动态能见度下远距离目标的零样本户外机器人导航增强》提出了一种创新系统，解决了户外导航中远距离微小目标识别和间歇性遮挡两大难题。该系统采用多尺度图像块金字塔技术增强目标感知，通过层级显著性融合放大微小目标信号；同时设计显著性驱动的航向记忆机制，在目标被遮挡时基于历史观测保持导航方向。实验表明，该系统能检测150米外的语义目标，在混合遮挡场景下恢复成功率达73.3%，显著优于现有方法。

大‭‭麒麟儿

543人浏览 · 2026-02-18 18:50:42

大‭‭麒麟儿 · 2026-02-18 18:50:42 发布

1. 论文基本信息 (Bibliographic Information)

标题 (Title): EZREAL: Enhancing Zero-Shot Outdoor Robot Navigation toward Distant Targets under Varying Visibility
作者 (Authors): Tianle Zeng, Jianwei Peng, Hanjing Ye, Guangcheng Chen, Senzi Luo, Hong Zhang (IEEE Fellow)
机构 (Affiliation): 南方科技大学机器人与计算机视觉重点实验室 (Shenzhen Key Laboratory of Robotics and Computer Vision, SUSTech)
来源 (Source): arXiv:2509.13720v1 [cs.RO]
发表时间 (Year): 2025年9月
摘要速读 (Abstract Summary): 论文针对户外机器人导航中的“远距离微小目标”和“间歇性遮挡”两大难题，提出了一种名为 EZREAL 的系统。该系统利用多尺度图像块金字塔（Multi-scale image tile hierarchy）来增强对微小目标的感知，并利用显著性驱动的航向记忆（Saliency-driven heading maintenance）来应对目标忽隐忽现的情况。实验表明，该系统能检测到150米外的语义目标，并在遮挡下保持航向。

2. 核心概念字典 (Concept Dictionary for Beginners)

这里先解释几个核心术语：

Zero-Shot Object Navigation (ZSON, 零样本目标导航):
- 通俗解释: 传统的机器人需要先看几千张“椅子”的照片才能认出椅子。ZSON 则是告诉机器人“去找一把椅子”，机器人依靠它对语言和图像的通用理解能力（通常借助大模型），就能在从未见过的环境中找到从未训练过的“椅子”。不需要针对特定物体进行重新训练。
CLIP (Contrastive Language-Image Pre-training):
- 通俗解释: 一个超级“翻译官”模型，它能理解图片内容和文字描述之间的匹配程度。比如给它一张图和文字“无线电塔”，它会给出一个分数，分数越高表示图片里越可能有无线电塔。本文用它来给图像块打分。
Saliency (显著性):
- 通俗解释: 图像中哪里最“显眼”、最符合我们寻找的目标。在本文中，显著性越高，意味着那个区域越像我们要找的目标。
Occlusion (遮挡):
- 通俗解释: 目标被树木、建筑物挡住了。户外导航中，目标一会儿看得到，一会儿看不到，这叫“动态能见度” (Dynamic Visibility) 。
Odometry (里程计):
- 通俗解释: 机器人通过计算轮子转了多少圈或者惯性传感器，来估算自己走了多远、转了多少度。

3. 整体概括 (Overview)

3.1 研究背景与动机 (Why?)

现有的 ZSON 方法在室内表现不错，但在户外大规模环境中经常“翻车”。主要有两个原因（文中称为“耦合挑战”）：

目标太远太小: 户外目标可能在100米开外，普通深度相机（Depth Sensor）根本扫不到那么远，无法生成深度地图。在RGB图像上，这些目标往往只占极少的像素，特征非常模糊。
能见度不稳定: 远处的物体很容易被路灯、树木遮挡。如果机器人只盯着眼前看，一旦目标被挡住，机器人就会迷失方向。

3.2 核心贡献 (What?)

EZREAL 系统提出了一个闭环解决方案：

感知层面: 不把图片整体缩放，而是切成不同大小的块（Tile），利用“层级显著性融合”技术，像放大镜一样把微弱的目标信号放大。
导航层面: 既然目标容易消失，机器人就记住目标上次出现的方向和特征（关键帧），在看不见目标时依靠“记忆”和“推算”继续行走，或者主动四处张望寻找目标。

内容描述: 这张图展示了一个机器人在复杂街道寻找“无线电塔 (radio tower)”的场景。

左侧插图 (Target Occluded): 红色框显示机器人视角，目标被建筑物挡住，红点路径表示此时机器人依赖记忆导航。

右侧插图 (Target Visible): 绿色框显示目标可见，绿点路径表示机器人直接根据视觉导航。

核心含义: 图中的红色叉号和绿色对勾路径表明，EZREAL 能够在目标可见（绿色虚线）和被遮挡（红色虚线）的混合状态下，依然规划出正确的路径到达远处的黄色目标区域。

4. 方法详解 (Methods)

EZREAL 系统像一个精密的闭环系统，分为“怎么看”（感知）和“怎么走”（导航）。

内容描述: 图片分为上下两部分。上半部分是机器人在环境中的运动逻辑（看到目标直走，看不到就找）。下半部分是技术细节：左下角是图像金字塔（把图片切碎），右侧是关键帧记录（像胶卷一样存下历史画面）。

核心含义: 展示了感知模块（左下）如何将处理后的方向信息传递给导航模块（右上），以及导航模块如何在丢失目标时利用关键帧（右中）进行回溯和主动搜索。

4.1 多尺度瓦片金字塔感知 (Multi-scale Tile Pyramid Perception)

这是为了解决“看不清”的问题。

原理: 系统不直接缩放整张图片（那样会让小目标彻底消失），而是把原始分辨率的图片切成不同层级的“瓦片” (Tiles)。
- $T_1$ (精细层): $8 \times 12$ 个小块。
- $T_2$ (中等层): $4 \times 6$ 个中块。
- $T_3$ (粗糙层): $2 \times 3$ 个大块。
- 对齐: 这些块是严格对齐的，1个粗块对应4个中块，1个中块对应4个细块。
计算过程 (Hierarchical Fusion):
1. 打分: 用 CLIP 模型计算每个瓦片与文本（如“radio tower”）的相似度分数 $s$。
2. 融合公式: 并不是简单的加和，而是利用方差 (Variance) 来放大信号。如果一组子瓦片里分数差异很大（说明有一个突出的目标），就给它加权。
从 $T_1$ 到 $T_2$ 的融合公式为：

$$s_{2}^{\prime}=s_{2}+\beta\cdot\sum_{Top-2}s_{1}$$

其中 $\beta = base^{\hat{\sigma}}$，$\hat{\sigma}$ 是子瓦片分数的标准差。这意味着：如果局部区域对比度强烈（很有可能是目标），信号就会被指数级放大；如果是平坦的背景，信号就被抑制 。
目标方向计算:

在最粗糙的一层找到分数最高的块，计算其中心像素 $p_{img}$，结合相机内参 $K$ 和外参 $T_{c \rightarrow w}$，算出目标在世界坐标系中的方向向量 $\hat{d}_{target}$：

$$\hat{d}_{target}=T_{c\rightarrow w}K^{-1}\tilde{p}_{img}$$

4.2 基于显著性的航向维护 (Saliency-based Heading Maintenance)

这是为了解决“看不见”的问题。

关键帧记录 (Keyframe Recording):

当目标清晰可见时，机器人会拍下一张“快照”（关键帧），记录下：
1. 最显著区域的特征及分数。
2. 当时的目标方向。
3. 机器人当时的位置。
可见性检测 (Visibility Detection):

机器人怎么知道自己“看没看见”？它计算分数的稀疏比 (Sparsity Ratio) $r_l$：

$$r_{l} = \frac{\max(s_l^{(i)})}{\sum s_l^{(i)} + \epsilon}$$

如果最高分非常突出（$r_l$ 高）且分布稀疏（$\sigma_l$ 高），系统就判定“目标可见”；否则判定为“被遮挡” 。
方向融合 (Direction Fusion): 当目标看不见时，机器人不会瞎猜，而是把历史关键帧里记录的方向拿出来，做一个加权平均（权重取决于当时看得清不清楚和时间远近），算出一个平滑的航向 $d_{target}$ 继续走。
主动搜索 (Active Search): 如果一直盲走也不是办法。当长时间看不见时，机器人会走到推测的方向，然后原地转头（Look-around）扫描。它会将眼前看到的画面与记忆中的关键帧进行比对，只有特征和语义都匹配上了，才确认“我又找到它了” 。

5. 数据集与评测指标 (Datasets and Evaluation Metrics)

为了验证效果，作者使用了以下设置：

5.1 数据集

TartanAir (仿真数据集): 这是一个高保真的视觉SLAM数据集。作者选取了不同距离（10m, 25m, 50m, 100m, 150m）的场景，包含各种天气和光照条件。
真实世界 (Real-world): 在深圳南方科技大学校园内进行测试，场地范围达 $350m \times 450m$，包含复杂的遮挡物。

5.2 评测指标

为了公平评价，作者定义了专门的指标：

惩罚角度误差 (Penalized Angular Error, $e_{avg}$):

用来衡量“看”得准不准。

$$e_{avg} = \frac{1}{N} \sum_{i=1}^{N} \begin{cases} |\hat{\theta}_i - \theta_i|, & \text{if detected} \\ \pi, & \text{otherwise} \end{cases}$$

如果检测到了，算角度误差；如果没检测到（漏检），直接罚一个最大误差 $\pi$ (180度)。这个指标同时考察了准确率和召回率。
导航指标:
- RSR (Recovery Success Rate): 恢复成功率。目标消失后，机器人能重新找回目标的概率。
- RPL (Recovery Path Length): 恢复路径长度。找回目标走了多远，越短越好。
- SR (Success Rate): 最终到达目标的成功率。

6. 实验结果 (Results)

6.1 远距离感知能力

内容描述: 一个雷达图，不同方向代表不同距离（10m到150m），轴向数值代表误差（越靠近中心越好）。

分析: 在近距离（10m-25m），大家表现都差不多。但到了 50m 以外，其他方法（如 GroundingDINO, YOLO-World）的线条迅速向外扩散（误差变大），因为它们无法识别变成了几个像素的小点。而 EZREAL (绿色线) 始终保持在中心附近，说明它在150m的超远距离依然精准。

6.2 动态能见度下的导航

在表格 II 中，作者对比了机器人应对“短时遮挡”、“长时遮挡”和“混合遮挡”的能力。

关键数据: 在混合遮挡场景下，EZREAL 的 RSR (找回率) 达到了 73.3%，而对比方法 RayFront 只有 41.7%。这证明了“航向记忆”和“主动搜索”策略极其有效。

6.3 真实世界测试

内容描述: 展示了三个阶段。

左列（可见）：RViz视图中绿色箭头指向目标，机器人确信方向。

中列（部分可见）：目标只露出一角，机器人利用红色箭头（记忆方向）辅助。 * 右列（全遮挡）：目标完全被树挡住，RViz中显示机器人正在基于蓝色点（融合后的推测方向）继续探索。

结论: 证明系统在现实中能像人类一样，即使暂时看不到目标，也能凭印象大概知道在哪。

内容描述: 卫星地图上的彩色轨迹。

分析: 机器人从起点（红点）出发，穿越了长长的草坪和道路，最终到达远处的图书馆（红星）。轨迹颜色的变化（热力图）对应了构建的地图高度，证明机器人在长距离下依然能保持稳定的航向。

7. 结论与局限性 (Conclusion & Critique)

7.1 总结

EZREAL 成功解决了一个痛点：户外机器人既要看得远（超分辨率感知），又要记得住（抗遮挡导航）。 它不需要深度地图，仅靠 RGB 图像就能在几百米的尺度上通过文字指令导航，且计算量小，适合移动机器人部署。

7.2 局限性与思考

尽管表现出色，论文也坦诚了不足之处：

依赖初始观测: 导航开始时必须先看一眼目标。如果一开始就看不见，机器人就不知道往哪走。
长时遮挡: 如果遮挡时间过长（比如超过10秒），累积误差会让搜索范围变得太大，导致效率降低。
路径规划简单: 目前只是基于方向的探索（Frontier Exploration），还没有结合复杂的环境语义（比如“顺着路走”这种高级推理）。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

六自由度机械臂与RRT路径轨迹规划算法仿真：开启机械臂路径规划新世界

DAMO开发者矩阵

基于Matlab Robotic Toolbox的四轴机械臂运动控制仿真

DAMO开发者矩阵

春晚机器人营销：从168亿曝光到订单暴涨300%，数智联AI团队解码高效转化范式

想象一下，你的产品在的注视下，登上零容错的顶级舞台，一夜之间，品牌搜索量激增300%，订单如潮水般涌来。这不是科幻场景，而是2025年春晚机器人营销创造的商业奇迹。当宇树、松延等品牌通过春晚舞台完成技术与商业的完美共舞时，一个全新的营销纪元已经开启。然而，盛宴背后，是动辄数千万的投入、严苛的技术考验与复杂的转化设计。如何抓住机遇，避开陷阱，将顶级流量转化为实实在在的增长？旗下的，作为深耕企业AI服