记忆成本狂砍19倍！阿里联合清华北大提出：统一的终身导航框架

▲图6｜压缩率与记忆长度的折中：压太狠会掉精度，压得适中更划算。在 GOAT-Bench 的未见场景子集上，对比不同 token 压缩率与不同存储图像数量下的导航准确性，展示“更长记忆”通常有益，但“过度压缩”会让关键线索丢失，从而影响表现。，针对这一现实痛点：让机器人在“终身导航”设置下，不用改下游模型，即插即用，在陌生环境探索成功率提升 15%，熟悉环境路径效率翻倍。更重要的是，这种“上下文压

深蓝学院

691人浏览 · 2026-01-08 16:58:48

深蓝学院 · 2026-01-08 16:58:48 发布

01 问题背景

02 技术亮点

用“视觉上下文压缩”把长历史塞进模型

压缩不是简单下采样，而是尽量保住“空间线索”和“地标差异”

将“记忆”粗暴等同于“存视频”

——方法论陷阱

具身导航想落地 “长期驻场”，核心矛盾是：机器人必须存下过往路径和地标，但现有图像中心方法一沾历史视觉数据就瘫痪。

让机器人在真实楼宇里找打印室，第一次，它靠试探、摸索、试错；可当第二次、第三次再去同一个地方，照样把整层楼重新排查一遍，像“第一次来”。

问题不在于它看不见，而在于它记不住，或者说“记忆”太贵了。

很多端到端导航方法如果想把一路看到的画面都塞进模型上下文，就会被视觉 token 的数量拖垮，算力、显存、推理速度一起吃紧。

这导致所谓终身学习机器人，本质上只是个带硬盘的摄像头——路径重复探索，算力空耗在冗余像素里。

近日，来自阿里、清华、北大团队提出的 AstraNav-Memory，针对这一现实痛点：让机器人在“终身导航”设置下，不用改下游模型，即插即用，在陌生环境探索成功率提升 15%，熟悉环境路径效率翻倍。

01 问题背景

具身导航面临一个很现实的问题——

机器人如果想“长期在同一栋楼里工作”，就得把以前走过的路、见过的地标带在身上。

可现在很多图像中心的导航方法，一旦想把历史画面放进模型，就会被“信息量”压垮。

这里的关键问题在于：视觉Tokens

你可以把它理解成：模型不会直接“吃”一张完整图片，而是先把图片切成很多小块，每一块变成一个小的“信息碎片”，这些碎片合起来才是模型眼里的图像。

碎片越多，模型看得越细，但计算也越慢、越吃显存。

例如：一帧 720×640 的图像进入视觉语言模型（Qwen2.5-VL）后，会变成将近 600 个这样的碎片。要是再把几百帧历史都塞进去，就像把一本厚厚的相册一次性摊在桌上，模型再聪明也容易“看不过来”。

▲图1｜终身导航（lifelong）设定：先探索一次，后面靠记忆省大力气。第一次进入陌生环境时，智能体需要用“前沿探索”（去未知区域试探）找到目标。关键在于：环境状态和智能体状态不会在任务之间重置，会被保留下来。后续再收到新指令时，智能体会先查自己的记忆，如果之前见过目标，就能直接规划到目标位置的路径，不用再把环境重新探索一遍

AstraNav-Memory 的解决思路是：给这些视觉碎片做一次“上下文压缩”。

它先用一个已经训练好的视觉特征提取器，再用轻量模块把每帧图像的碎片数量大幅压缩到一个固定、很小的规模。

这样，机器人就能在不把算力拖垮的前提下，把更长的历史带进决策过程。

最后，这些压缩后的信息会和语言指令一起送入大模型，由它输出下一步动作（前进、左转、右转、停止），实现连续导航。

02 技术亮点

用“视觉上下文压缩”把长历史塞进模型

终身导航要用记忆，就得处理大量历史观测，但原始视觉 tokens 数量太夸张。

AstraNav-Memory 将每帧压到约 30 tokens，相当于把“过去”的体积瘦身到“可携带”的程度，让智能体能在一个任务接一个任务的过程中持续利用历史。

▲图2｜AstraNav-Memory 框架：把“视觉信息”压缩后再送进大模型，实现长记忆推理。导航过程中最多会累计到数百张历史图像：先用 DINOv3 的 ViT 把每张图像编码成大量视觉 token（可理解成图像被拆成很多“信息碎片”），再用轻量压缩头把这些碎片压到更小数量，使其能兼容 Qwen2.5-VL 原有的视觉输入格式。压缩后的视觉 token 与语言指令一起送入 Qwen2.5-VL-3B，从而在较低计算开销下对“长历史视觉记忆”进行推理与决策

这一步的意义是工程性的：记忆不再是“想要但用不起”的奢侈品，机器人在执行重复任务的时候不需要每次都把任务当做“第一次”来执行。

压缩不是简单下采样，而是尽量保住“空间线索”和“地标差异”

研究在压缩模块里用了记忆载体重排式的处理思路，不只是做平均池化那种“粗暴”缩小。

压缩的过程一定是伴随着信息损失的，但是对于导航任务，如果机器人能够记住每一个关键的路标点，那么导航过程中的“街景”似乎没那么重要。

因此研究的核心思路，是在压缩的过程中保留重要的信息，也就是中层的特征。

中层特征能把一些类别差异和区域显著性保留下来，因为走路更依赖布局、通行区域、转角地标，而不是只靠物体分类。

换句话说，它压的是 token 数量，尽量不压掉“方向感”。

▲图3｜DINOv3 特征可视化：模型在图里会把哪些区域当成“相似地标”。对每张图先选一个小区域作为查询点，再计算它与整张图其他区域的特征相似度，并画成热力图。颜色越暖表示越相似，用于直观展示 DINOv3 的中层特征能抓住哪些结构或纹理线索

端到端系统提升效率与可扩展性

压缩器输出的 tokens 被设计成能直接喂进 Qwen2.5-VL 的视觉入口（从第一个 block 开始继续处理），语言模型部分不需要大改。

这样做的好处是：系统既能继承大模型的指令理解能力，又能让它在更长历史下仍然跑得动。

03 实验与表现

该实验的核心直面回答两件事：

第一，压缩后还能不能“记得对”，即长记忆到底有没有变成真正的导航收益；
第二，压缩到底能省多少资源，能不能让终身导航在工程上跑得起来。

问题一：终身导航评测

在 GOAT-Bench 这种“一个任务接着一个任务、不重置环境”的终身导航评测里，研究展示了一个非常符合直觉的趋势：

第一次进入环境时，机器人仍需要探索；但随着任务推进，它越来越会利用记忆，路线从“到处试探”变成“更直接的走法”。

这点在他们的轨迹可视化里很直观，一条是探索式的弯弯绕绕，另一条更像记住路之后的近最短路径。

▲图5｜两种导航模式对比：一步步探索 vs 查记忆走“近似最优路”。在 Habitat-Sim 中可视化 GOAT-Bench 的导航过程：一种是逐步探索未知区域、边走边找；另一种是在记忆中已有线索时，直接按记忆规划更接近最短的路径，体现“终身记忆”带来的效率优势

定量结果显示：在未见场景上，AstraNav-Memory 的成功率与路径效率达到 62.7% SR / 56.9% SPL，并显著高于文中对比的若干方法。

▲图4｜GOAT-Bench 终身导航主结果：成功率与路径效率对比。给出多模态终身导航设置下的两项核心指标：成功率（SR）与路径效率（SPL），用于衡量模型是否“能到达”和“走得是否划算”

更重要的是，该方法在“未见环境”上优势更明显，这说明压缩后的记忆不只是背答案，而是在更泛化的场景里也能派上用场。

问题二：压缩的价值平衡

接着是消融实验讲清“怎么压才不翻车”。

研究结论很明确：压缩比不是越大越好。

压得过狠（例如 64×）会让性能明显下滑，说明信息被压没了；而适中的压缩通常能在保持效果的同时，把算力开销压下来。

换句话说，它不是单纯“省”，而是在省的同时尽量保住导航最关键的线索。

▲图6｜压缩率与记忆长度的折中：压太狠会掉精度，压得适中更划算。在 GOAT-Bench 的未见场景子集上，对比不同 token 压缩率与不同存储图像数量下的导航准确性，展示“更长记忆”通常有益，但“过度压缩”会让关键线索丢失，从而影响表现

同样训练设置下，压缩能明显减少迭代时间、显存占用和推理耗时。这一点对“终身导航”尤其关键，因为终身任务的历史会越来越长，只有当模型在长历史下仍然跑得动，“记忆”才不是演示，而是真能上系统。

▲图7｜效率对比：在不同“记忆长度”（存储图像数量）下，使用与不使用 16× token 压缩时的训练/推理效率开销，说明压缩能显著缓解长记忆带来的计算压力

04 总结

AstraNav-Memory 给终身具身导航提供了一个很务实的方向：与其不断想办法让模型“更能记”，不如先让记忆“更便宜”。

当每帧视觉信息从几百个 tokens 缩到几十个，几百帧历史才有机会真正进入决策过程，机器人也才可能在熟悉环境里越跑越顺。

同时我们也注意到其局限性：对地毯这类依赖细粒度纹理的目标，特征易模糊导致性能下滑；压缩率需精准把控；且当前仅验证静态场景，动态环境适应性仍待测试。

从行业来看，具身导航落地还需补全短板：融合 SAM 等模型的边界特征覆盖细粒度目标、设计动态压缩率适配场景变化。

但这篇论文的核心价值在于撕开了 “存储即记忆” 的误区 —— 更重要的是，这种“上下文压缩”的思路不只服务导航，它也在提醒我们：具身智能的长时能力，往往先卡在算力与表示的现实边界。

Ref：

论文题目：AstraNav-Memory: Contexts Compression forLong Memory

论文作者：Botao Ren, Junjun Hu, Xinda Xue, Minghua Luo, Jintao Chen, Haochen Bai, Liangliang You, Mu Xu

论文地址：https://arxiv.org/pdf/2512.21627

项目地址：https://astra-amap.github.io/AstraNav-Memory.github.io/

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

STM32F103_BLDC霍尔控制程序核心功能说明

DAMO开发者矩阵

从 0 开始学习人工智能：什么是生成式人工智能 (AIGC)？

DAMO开发者矩阵

某雷赛86闭环步进驱动方案 HBS86H 86闭环电机驱动器/混合伺服驱动器。原理图+PCB...

DAMO开发者矩阵

所有评论(0)

查看更多评论

深蓝学院

@soaring_casia

已为社区贡献55条内容