【论文阅读】MEMORYVLA:VLA模型中的感知认知记忆(for manipulation)
本文提出了一种名为MemoryVLA的机器人控制模型,通过模仿人类的记忆机制(工作记忆+长时记忆),让机器人能利用过去的经验来解决需要长时间记忆和复杂步骤的操纵任务。
快速了解部分
基础信息(英文):
1.题目: MemoryVLA: Perceptual-cognitive memory in vision-language-action models for robotic manipulation
2.时间: 2026.01
3.机构: Tsinghua University, Dexmal, MEGVII Technology, Tianjin University, Harbin Institute of Technology, StepFun
4.3个英文关键词: Vision-Language-Action (VLA), Robotic Manipulation, Long-horizon Tasks
1句话通俗总结本文干了什么事情
本文提出了一种名为MemoryVLA的机器人控制模型,通过模仿人类的记忆机制(工作记忆+长时记忆),让机器人能利用过去的经验来解决需要长时间记忆和复杂步骤的操纵任务。
研究痛点:现有研究不足 / 要解决的具体问题
主流的VLA模型(如OpenVLA、π0)通常只关注当前的画面,忽略了时间上的连续性(即非马尔可夫性)。这导致机器人在面对前后画面几乎没有变化(如按按钮前后)或需要依赖历史信息(如数数、按顺序操作)的长程任务时表现不佳。
核心方法:关键技术、模型或研究设计(简要)
提出了一种“认知-记忆-行动”框架。模型包含一个感知-认知记忆库(PCMB),用来存储过去的视觉细节和语义信息;以及一个记忆扩散动作专家,利用这些历史信息来生成更准确的动作。
深入了解部分
作者想要表达什么
作者认为,要让机器人完成复杂的长程任务,必须引入类似人类的双重记忆系统。仅仅依靠当前的视觉输入是不够的,机器人需要像人类一样,利用“工作记忆”处理当前信息,同时从“海马体系统”(即本文的记忆库)中检索相关的历史经验来辅助决策。
相比前人创新在哪里
- 记忆机制的引入:不同于以往VLA模型仅使用当前帧,本文显式地建模了时间依赖性。
- 双流存储:记忆库中同时存储了低级的感知细节(视觉特征)和高级的认知语义(语言模型提取的语义),并设计了检索、融合和压缩机制。
- 无需额外传感器:在仅使用第三视角RGB图像的情况下,性能超过了使用额外本体感觉或手腕相机的模型。
解决方法/算法的通俗解释
可以把这个模型想象成一个学生在做复杂的操作题:
- **眼睛(视觉编码器)**看到现在的画面,**大脑(LLM)**理解现在的指令。
- **短期记忆(工作记忆)**记住现在的画面和指令。
- **长期记忆(记忆库)**里存着刚才做过的事情(比如“刚才已经按过这个按钮了”)。
- 当遇到难题(比如画面没变化)时,学生会从长期记忆里翻找以前的经验,和现在的画面对比一下,确认下一步该怎么做,然后更新自己的记忆。
解决方法的具体做法
- 编码:使用VLM(7B参数)将当前图像编码为感知Token,将指令和图像编码为认知Token,形成工作记忆。
- 记忆检索与融合:工作记忆作为查询,去感知-认知记忆库(PCMB)中寻找相关的历史信息(带时间编码)。通过一个门控机制(Gate),决定是相信现在的信息还是历史信息,并将它们融合。
- 记忆压缩:当记忆库满了,系统会自动合并那些相似度高且时间相邻的记忆,防止记忆过载。
- 动作生成:融合了历史信息的特征输入到一个**扩散模型(Diffusion Model)**中,预测未来的一连串动作。
基于前人的哪些方法
- 认知科学理论:借鉴了人类的双重记忆系统(工作记忆和情景记忆)。
- VLA基础架构:基于Prismatic VLM (7B) 和 Open-X Embodiment 数据集进行预训练。
- 扩散策略:采用了类似Diffusion Policy的动作生成方式。
实验设置、数据、评估方式、结论
- 实验设置:在3种机器人(WidowX, Google Robot, Franka)上,涵盖了模拟环境(SimplerEnv, LIBERO, Mikasa-Robo)和真实世界任务。
- 数据:涉及150+个任务,500+种变化。
- 评估方式:任务成功率(Success Rate)。
- 结论:
- 在SimplerEnv-Bridge上达到71.9%成功率(比SOTA高14.6%)。
- 在Mikasa-Robo(专门测试记忆的任务)上达到41.2%成功率(比SOTA高11.8%)。
- 在真实世界的长程任务中达到83%的成功率(比CogACT高26%)。
- 模型对环境变化(背景、光照、遮挡)表现出很强的鲁棒性。
提到的同类工作
- CogACT:当前的SOTA VLA模型之一,MemoryVLA在多个任务上超越了它。
- π0 (pi-0):另一个主流的VLA模型,采用流匹配方法。
- RoboVLMs / TraceVLA:尝试处理视频数据或通过轨迹提示来引入时间信息的VLA模型,但效果不如本文方法。
和本文相关性最高的3个文献
- CogACT: A foundational vision-language-action model for synergizing cognition and action in robotic manipulation (Li et al., 2024a) - 本文最主要的对比基准。
- pi-0: A vision-language-action flow model for general robot control (Black et al., 2024) - 另一个主要对比的SOTA模型。
- Baddeley & Hitch (1974) / Tulving et al. (1972) - 关于工作记忆和情景记忆的认知科学理论基础,是本文方法设计的核心灵感来源。
我的
本文实现记忆的本质手段是:构建一个带有时间编码和自动压缩机制的外部显式记忆库。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)