从 Memory Storage 到 Memory Evolution：长期 Agent 的关键不是“记住”，而是“治理变化”

也许未来最好的 AI，不是最像搜索引擎的那个，也不是最像聊天机器人的那个，而是那个真正理解你、持续理解你，并且在你变化时依然跟得上你的长期伙伴。

猿人谷

235人浏览 · 2026-05-19 14:35:32

猿人谷 · 2026-05-19 14:35:32 发布

在这里插入图片描述

从静态存储到动态演化，Agent Memory 的真正难题不是"记住"，而是"跟上变化"。

一、AI Agent 的长期价值，核心可能不只是模型能力

过去我们讨论大模型时，关注的问题往往是：推理行不行？Coding 行不行？上下文够不够长？工具调用强不强？

这些当然很重要。但最近我越来越确信一个判断：当 AI 开始从"问答工具"走向"长期 Agent"时，问题会发生本质变化。

它能不能长期理解你，并且在你变化的过程中持续跟得上你。

换句话说：未来真正优秀的 Agent，可能不是"最聪明的"，而是最懂你、最持续、且不会把你记错的。

二、长期 Agent 最大的挑战，不是回答问题，而是记忆管理

为什么？

因为人不是静态的。

今天你说：“我住在奥克兰”
一个月后：“我搬到悉尼了”
三个月后：“我现在住在东京”

一个长期 Agent 不只是要"记住"，更要理解：哪些是过去，哪些是现在，哪些已经变化。

三、拆解一个典型的 Agent Memory 基础设施方案：TencentDB-Agent-Memory

这个项目我认真研究后，最大的感受是：它不是简单做聊天记录的存储，而是在尝试做 Agent Memory Infrastructure（记忆基础设施）。

它最核心的设计是 L0 → L1 → L2 → L3 四层架构：

L0：Raw Logs        → 原始交互日志
L1：Atomic Facts     → 原子事实提取
L2：Episodes         → 任务 / 场景聚合
L3：Persona          → 长期用户画像

这是一套非常清晰的分层抽象，每一层都在把原始信息往更高维度浓缩。

四、这套设计让我想到了数据仓库分层

作为做过系统架构的人，我第一反应是：这和数据仓库的分层逻辑非常像。

ODS → DWD → DWS → ADS
  原始 → 明细 → 汇总 → 应用

类比一下：

L0 ≈ ODS（原始记录）
L1 ≈ DWD（事实明细）
L2 ≈ DWS（任务聚合）
L3 ≈ ADS（用户画像）

这个类比为什么重要？因为它意味着：Agent Memory 不再只是"聊天记录"，而是在向数据治理 + 状态治理演进。

数据仓库解决的是"企业如何从原始数据中抽取业务价值"；Agent Memory 未来解决的是"Agent 如何从长期交互中抽取用户状态价值"。

五、这类方案最大的启发

它开始把 Memory 从 向量检索 升级为 符号化结构。

很多 Memory 项目的做法仍然是：

Conversation → Embedding → Retrieval

这种范式能解决一个问题——“你说过什么”。但不一定能解决一个更关键的问题——“你现在真正处于什么状态”。

于是，Symbolic Memory（符号化记忆）变得非常关键。

需要先做一个用词上的澄清：本文所说的 “Symbolic” 指的是结构化、可计算、可治理的离散记忆单元（每条记忆有显式的类型、实体、置信度、重要性、时间戳与状态字段，可以被检索、比较、降级、归档），而不是严格意义上的逻辑符号系统（一阶逻辑、知识图谱三元组、产生式规则、神经符号推理等）。这一阶段更接近 “Structured / Typed Memory”，把它叫作 “Symbolic” 是因为相对于纯向量表示，它把记忆从"连续语义点"显式拉回到"可被规则与状态机操作的离散对象"——这才是后面冲突治理与生命周期管理能够成立的前提。

六、我认为 Symbolic Memory 必须分两个层级

这是我研究过程中一次非常重要的认知升级。

Level 1：Conceptual Symbolic Memory（概念层）

把原始对话转成结构化事实：

{
  "type": "goal",
  "content": "用户计划做 AI 博士申请",
  "confidence": 0.91
}

本质是回答"用户说了什么"，它解决的是 Representation（表达）。

Level 2：Governed Symbolic Memory（治理层）

给记忆加上生命周期和状态管理：

{
  "memory_id": "uuid",
  "type": "goal",
  "content": "用户计划做 AI 博士申请",
  "confidence": 0.91,
  "importance": 0.88,
  "timestamp": "2026-05-16",
  "status": "active",
  "source": "conversation"
}

本质是回答"这条记忆现在处于什么状态"，它解决的是 Governance（治理）。

七、真正长期 Agent 最大的问题：记忆不只是"存"，更是"变"

因为用户会变：

偏好变化：Java → Rust
目标变化：申博 → 创业
身份变化：学生 → 全职研究员

所以，长期 Agent 真正难的，不是"有没有记住"，而是有没有正确处理变化。 换句话说：长期 Agent 的核心不是 Append（不断追加记忆），而是 Update（持续更新记忆状态）。

许多以向量检索为主导的 Memory 系统，在主路径上仍然偏向累积式设计——为了便于讨论，可以把它简化为：

$M_{t+1} = M_t \cup \Delta M_t$

需要说明的是，这里的"∪"是一种简化抽象：现实中的工程实现（Mem0、Letta、Zep 等）大多并非纯粹的 append-only，它们也会做一定程度的去重、合并或元数据更新。但这些操作通常发生在写入层，作用是消除重复或维护索引，而不是在语义层回答"哪条记忆现在仍然成立、哪条应该被取代或历史化"。也就是说，去重 ≠ 治理。所以下面用 “∪” 表达的是主导语义：新记忆来了，就继续往里加。这种方式能保证"不丢"，但不能保证"不乱"。结果就是：

冲突目标并存
过期偏好残留
用户状态错位

我认同的长期 Agent Memory 应该是：

$M_{t+1} = U(M_t, \Delta M_t)$

其中 U 不是一个简单的并集，而是一个 Update / Governance Function。它做的不只是新增，而是：

判断冲突
更新时间状态
调整权重
生命周期治理

一句话：从"记忆累积"升级到"记忆治理"。

八、于是我开始做 HSM-CR

HSM-CR 的核心是四个关键词：

Hierarchical（分层）：解决"记忆如何组织"
Symbolic（符号化）：解决"记忆如何理解"
Conflict Resolution（冲突消解）：解决"记忆冲突如何处理"
Temporal Governance（时间治理）：解决"记忆如何随时间演化"，包含 temporal scoring 与 adaptive forgetting 两部分

这意味着：Agent Memory 开始从静态存储升级为动态认知治理。

这里需要强调一点：HSM-CR 不是为了替代向量检索，而是为了补上向量检索不擅长的部分。向量检索更擅长回答"哪段历史信息和当前问题相似"，而 HSM-CR 更关注"这段历史信息现在是否仍然有效"。前者解决的是信息召回（Recall）的广度，后者解决的是信息有效性（Validity）的深度。所以，我更倾向于把它看成 Agent Memory 的治理层，而不是另一个 RAG 组件。

九、为什么不是直接用 RAG + User Profile？

看到这里，一个非常自然的问题是：这是不是本质上用 RAG + 用户画像（User Profile）也能解决？

我越来越觉得，不完全是。

RAG 更擅长 retrieval（找历史），但不擅长 state transition（管变化）。

RAG 的核心优势在于：

找相似历史
找相关上下文
找过去说过什么

但它不天然解决：

哪条记忆现在仍有效
哪条记忆已经过期
哪条记忆和新状态冲突
哪条记忆应该被降级或历史化

User Profile 更像静态标签，但用户偏好、目标、阶段本质上是动态演化的。

例如：

“用户喜欢 Java”
“用户计划申博”

这些标签本身会变。

如果 Profile 只是不断追加标签，而缺乏冲突处理和生命周期治理，它最终仍可能变成"信息更多，但状态更乱"。

所以：长期 Agent 真正缺的，不是更多 Profile，而是一个能够处理冲突、时间和生命周期的 Memory Governance Layer。

传统 RAG 更像：

文档 → 向量化 → 相似度检索 → 拼进 Prompt

HSM-CR 更像：

交互事件 → 记忆提炼 → 记忆分层 → 长期演化 → 个性化上下文

一句话：RAG 更像"找历史"，Profile 更像"贴标签"，而 HSM-CR 更关注"治理状态"。

十、HSM-CR 的核心方法论（公式层面）

前面讲的是理念和方向，这一节进入具体的方法论。

1. 问题定义

我们将时刻 t 的持久化记忆状态定义为：

$\mathcal{M}_t = \{m_1, m_2, ..., m_k\}$

当新的交互 x_t 到达时，先做记忆提取：

$\Delta \mathcal{M}_t = E(x_t)$

然后做记忆更新（这是核心，不是简单 append）：

$\mathcal{M}_{t+1} = U(\mathcal{M}_t, \Delta \mathcal{M}_t)$

这里的 U 不是一个简单的 ∪ 操作，而是一个包含冲突检测、时间评分、策略决策的复合函数。

2. 四层层次化记忆结构

从原始交互到稳定人格画像，逐层抽象：

$L_0 = \{x_1, x_2, ..., x_t\}\quad\text{（原始交互日志）}$

$m_i = (type_i, entity_i, content_i, C_i, I_i, T_i)\quad\text{（L1：原子记忆）}$

其中 content_i 是用户原句，C_i 是置信度，I_i 是重要性，T_i 是时间戳。每条记忆不再是一个字符串，而是一个可计算、可比较、可治理的符号化对象。

$e_j = \{m_a, m_b, ..., m_z\}\quad\text{（L2：情节记忆）}$

$\Pi = g(e_1, e_2, ..., e_n)\quad\text{（L3：人格记忆）}$

其中 Π（capital pi）是用户人格画像，由若干 episodes 聚合而来；这里的 e_i 与 L2 中的 e_j 是同一类对象。

3. 时间评分机制（Temporal Memory Scoring）

记忆不是"记住就完"，每条记忆有一个动态变化的分值。基础公式：

$\alpha \cdot I + \beta \cdot C + \gamma \cdot R + \delta \cdot F$

其中权重归一化约束：

$\alpha + \beta + \gamma + \delta = 1$

I（Importance）— 用户显式或隐式表达的重要程度，对应记忆元组中的 I_i
C（Confidence）— 系统对这条记忆可信度的判断，对应记忆元组中的 C_i
R（Recency）— 指数衰减

$e^{-\lambda(t_{current} - t_m)}$

F（Frequency）— 被反复提及的记忆获得加分，归一化到 [0,1]

$\min\!\left(\frac{\log(1 + n_m)}{\log(1 + N)},\ 1\right)$

其中 n_m 是该记忆被提及的次数，N 是一个饱和常数（当前实现取 N = e³ − 1 ≈ 19，等价于代码中的 log(1+n_m) / 3 上限截断为 1）。这层归一化保证 I, C, R, F ∈ [0,1]，配合 α + β + γ + δ = 1 即可得到 S(m) ∈ [0,1]，让后续的遗忘阈值 τ_forget 与状态切换阈值 θ 处在统一量纲。

这个公式的核心思想是：记忆的价值不是静态的，它会随时间衰减，也会因反复强化而回升。

4. 冲突消解引擎（Conflict Resolution Engine）

这是 HSM-CR 最关键的模块。这里的冲突判定当前采用 Prototype 级规则定义，重点是先建立一个可解释（explainable）、可治理（governable）的冲突处理框架。未来它完全可以升级为基于 NLI（Natural Language Inference）、Embedding Semantic Contradiction Detection 或 LLM-as-a-Judge 的更高级语义冲突检测系统。

冲突判定（理想定义）：

$Conflict(m_{new}, m_{old}) = \begin{cases} 1, & type_{new}=type_{old} \land entity_{new}=entity_{old} \land value_{new} \neq value_{old} \\ 0, & \text{otherwise} \end{cases}$

即：同一类型、同一实体、不同取值 → 判定为冲突。

不过，这个理想定义中的 value_new ≠ value_old 在工程上并不直接可计算 —— 我们没有一个通用的"语义不等"算子。所以 HSM-CR 当前采用的 prototype 实现，是用一个领域先验的反义对照集（opposite-pair set） P 来近似这条不等式：

$\{(a_1, b_1), (a_2, b_2), \ldots\}$

每一对 (aᵢ, bᵢ) 表示一组互斥语义。HSM-CR 当前实现的 P 包含若干领域先验对，例如：(java, rust)、(phd, startup)、(auckland, sydney)、(留学, 创业) 等。

近似后的 prototype 形式如下：先判同槽位（同 type、同 entity），再判内容是否命中 P 中某一对反义词：

$\begin{aligned} \text{SameSlot}(m_{new}, m_{old}) &\triangleq (type_{new} = type_{old}) \land (entity_{new} = entity_{old}) \\ \text{HitOpp}(c_{new}, c_{old}) &\triangleq \exists (a, b) \in P: (a \in c_{new} \land b \in c_{old}) \lor (b \in c_{new} \land a \in c_{old}) \end{aligned}$

这里的 c_new、c_old 即第 10.2 节中 m_i = (type_i, entity_i, content_i, C_i, I_i, T_i) 的 content_i——也就是新旧两条记忆所对应的用户原句。后文出现的 c、c_new、c_old 都遵循这一约定，不再单独说明。

$Conflict_{proto}(m_{new}, m_{old}) = \begin{cases} 1, & \text{SameSlot}(m_{new}, m_{old}) \land \text{HitOpp}(c_{new}, c_{old}) \\ 0, & \text{otherwise} \end{cases}$

其中 c 表示 content（用户原句），与 10.2 节中的 content_i 同义。这套规则覆盖面有限，但有两个关键好处：判定可解释（可以指出具体是哪一对反义词命中）、治理可控（P 是一份显式可维护的字典）。

正因为 P 把"语义对立"显式抽出来了，升级路径也就一目了然：未来只要把 HitOpp 这一步替换为更强的语义判定算子，整个冲突治理框架不用改。下表列出几种可能的升级路径——为了便于横向对比，所有判定算子都统一写成"满足条件即判为冲突"的形式：

演进阶段	判定算子	触发冲突的条件（`Conflict = 1`）
Prototype	反义词字面匹配	`∃ (a,b) ∈ P: (a ∈ c_new ∧ b ∈ c_old) ∨ (b ∈ c_new ∧ a ∈ c_old)`
Embedding	语义相似度过低	`cos(emb(c_new), emb(c_old)) < τ_sim`
NLI	蕴含关系	`NLI(c_new, c_old) = contradiction`
LLM-as-Judge	模型仲裁	`LLM(c_new, c_old) = conflict`

注：Embedding 这一栏写成 cos(...) < τ_sim 而不是等价的 1 − cos(...) > τ_emb，是为了和代码中 EmbeddingDetector.is_conflict 直接对应（实现里用的就是 similarity < threshold 触发冲突），同时保持四栏的判定方向一致——读者不必在"相似度"和"相反度"两个坐标系之间反复切换。

也就是说，HSM-CR 的冲突治理框架不绑定任何一种检测方法 —— 反义对集合 P 只是当前阶段的一个最小可工作实现，未来可以无缝替换为更强的语义判定。

更新策略：当 Conflict 命中后，根据新旧记忆的得分差进入三条路径之一。这里的"得分"就是前面定义的完整时间感知分

$\alpha \cdot I + \beta \cdot C + \gamma \cdot R + \delta \cdot F$

也就是说，冲突仲裁与遗忘判定共用同一个 S(m)，使冲突治理本身也具备时间维度——一条很久没有被提及的旧偏好会因 R、F 自然下滑，从而更容易被新表达替换；而新表达若得分尚不足以压过旧记忆，也会被有意识地保留下来，等待后续被反复印证时再升级。

我们用集合记号表示更新后两条记忆在 store 中的状态：

$U(m_{old}, m_{new}) = \begin{cases} \{\text{archived}(m_{old}),\ \text{active}(m_{new})\}, & S(m_{new}) > S(m_{old}) + \theta \\ \{\text{historical}(m_{old}),\ \text{active}(m_{new})\}, & |S(m_{new}) - S(m_{old})| \leq \theta \\ \{\text{active}(m_{old}),\ \text{historical}(m_{new})\}, & \text{otherwise} \end{cases}$

其中，θ（theta）表示长期记忆治理中的状态切换阈值（State Transition Threshold），用于判断新记忆相对于旧记忆是否具有“足够显著”的优势。

θ 决定的不是“哪个分数高”，而是：“高多少，才值得改变长期认知”。

θ 小：更激进、更容易替换、更敏感

θ 大：更保守、更稳定、更抗噪

它本质上是一个治理缓冲区（governance margin），用于避免系统因轻微波动、短期噪音或偶发表达而过度频繁地替换长期状态。

HSM-CR 采用两级降级体系来管理记忆的生命周期状态：

Archived（归档）：已被新状态明确取代，不再参与当前决策，仅保留用于历史追溯
Historical（历史化）：仍有参考价值，但不再是当前状态，与新记忆共存

需要说明的是，当前实现里 archived 和 historical 在检索行为上是等价的 —— 检索器只暴露 active 记忆，两者的差别仅作为元数据用于历史追溯与审计。它们的"治理语义差异"将在后续版本中真正落地：archived 用于硬过滤（永远不会回到 active 决策路径），historical 进入低权回溯检索（在用户主动询问历史时按低权重召回）。也就是说，这套两级体系在数据层已经就位，检索层的差异化策略是下一步的工作。

这里的"替换"更准确地说是状态切换（state transition），而不是物理删除（hard deletion）。当新记忆显著更优时，系统会将旧记忆标记为 archived，而非直接抹除，以支持历史追踪（memory lineage）与用户状态演化分析（state evolution analysis）。

三条路径的含义：

新记忆得分显著更高 → 状态替换（旧记忆标记为 archived，新记忆成为 active）
两者得分接近 → 降级共存（旧记忆标记为 historical，新记忆 active）
旧记忆得分更强 → 新记忆历史化（旧记忆保持 active，新记忆以 historical 形式入库以备后续追溯，而非直接丢弃）。这一点并非冗余设计：F（频率）和 R（时近性）会随时间和复述累积，一条暂时弱于旧状态的新表达，如果在后续交互中被反复印证，其 S(m) 会自然回升，并通过下一次冲突仲裁重新进入 active 候选。换句话说，路径 3 是为"渐变中的用户状态"保留一个慢更新通道，而不是简单丢弃尚未占优的新信号。

5. 自适应遗忘（Adaptive Forgetting）

任何一条记忆，当它的评分跌破阈值，就不再保留在 active 池中：

$\begin{cases} 1, & S(m) \geq \tau_{forget} \\ 0, & S(m) < \tau_{forget} \end{cases}$

需要明确的是，Keep(m) = 0 在 HSM-CR 中并不是物理删除，而是把记忆的 status 从 active 切换为 forgotten。也就是说，HSM-CR 的生命周期实际上是一套三级降级体系：

状态	触发条件	是否参与当前决策	是否保留
`active`	当前有效	是	是
`historical`	与新记忆冲突但得分接近 / 路径 3 入库	否（未来作低权回溯检索）	是
`archived`	被显著更优的新记忆取代	否（仅作历史追溯）	是
`forgotten`	`S(m) < τ_forget` 自适应淡出	否	是（用于审计与可恢复性）

这种"软遗忘"的设计有两个动机：一是保留记忆血缘（memory lineage），便于事后追溯一条结论是从哪些证据演化而来；二是为可恢复性留出空间——如果某条被遗忘的记忆在未来被新交互重新印证，系统可以通过频率/重要性的回升把它从 forgotten 重新激活，而不是让它彻底消失。

这意味着 HSM-CR 不需要手动清理记忆——系统会自动让低价值记忆淡出，保持记忆池的高信噪比，同时不丢失可追溯的状态演化轨迹。

十一、最关键的范式升级：从 Memory Storage 到 Memory Evolution

这是非常本质的区别。

Storage（存储）：把你说过的话留下来。

Evolution（演化）：理解哪些该强化，哪些该降权，哪些该冲突消解，哪些该历史化。

过去我们更习惯把 Memory 当仓库；但长期 Agent 真正需要的，不是一个只会堆积信息的仓库，而是一个能够理解、治理、演化记忆、有生命周期的认知系统。

十二、我越来越相信：Agent Memory 会经历三个阶段

阶段 1：Retrieval Memory ——“找得到”

核心是 RAG / Vector Search。解决"过去说过什么"。

阶段 2：Symbolic Memory ——“看得懂”

核心是 Structured Memory / Hierarchical Memory。解决"用户表达的事实、目标、偏好是什么"。

阶段 3：Governed Memory ——“管得住”

核心是 Conflict-aware + Temporal + Lifecycle。解决"哪些记忆现在有效、哪些冲突、哪些过期、哪些需要历史化"。

十三、最终方向：Memory OS（记忆操作系统）

需要先声明这个类比的边界：本文所说的 Memory OS 不是要复刻一套完整的操作系统——它没有 CPU 调度、没有进程隔离、没有文件系统，也不试图取代 RAG 或向量数据库。它借用的是操作系统的三件事：

状态管理：每个对象（记忆/进程）都有显式的生命周期状态（active / historical / archived / forgotten ↔ running / sleeping / zombie / terminated），状态之间通过明确的转换规则迁移；
生命周期治理：什么时候创建、降级、归档、回收，由系统而不是调用方决定；
资源调度：在有限注意力（≈有限 CPU 时间）下，决定哪些记忆进入当前上下文（≈被调度执行）。

换句话说，“Memory OS” 是一个关于状态治理范式的隐喻，不是一套与 Linux 对位的架构主张。下文的类比都应放在这个尺度上理解。

我越来越喜欢这个类比：

RAG → 像搜索
Vector DB → 像缓存
Symbolic Layer → 像数据库
Governed Memory → 像操作系统中的状态治理

未来真正成熟的 Agent，不只是"有记忆"，而是"有状态系统"——就像操作系统管理（部分意义上的）进程状态、生命周期、资源调度，Memory OS 管理的则是偏好、目标、项目、Persona、演化路径。

十四、为什么这件事值得长期做？

因为无论是教育 Agent（需要知道你的弱项从听力变成了口语）、Coding Agent（需要知道你的技术栈从 Java 架构转向 AI Infra）、企业 Agent（需要知道项目目标已经变化）、还是 Personal Agent（需要知道你的人生阶段在迁移）——最终都绕不开一个问题：它如何持续正确理解"变化中的用户"。

真正优秀的长期 Agent，不只是"记住你"，而是**“持续更新对你的正确理解”**。