从上下文到长期记忆:大模型记忆工程的架构设计与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 从上下
到
期记忆:
模型记忆
的架构设计与实践
李志宇
兼CTO
记忆张量(上海)科技有限公司 联合创始
程
2.
3. 模型性能缩放曲线的演进历史
Mem-training
4. 从实践层
5. 从实践层
户
具库
企业/ 户明
数据
常交流过程中形成的信息流是模型持续迭代提升的最优资源!
6. 从实践层
看记忆增强的必要性
动态记忆
Dynamic Memory
动态记忆
Dynamic
Memory
动态记忆
Dynamic Memory
静态记忆
Static Memory
7. 从实践层
看记忆增强的必要性
对于单个
户的 单个 Session
,需要管理:
✦ 动态信息:临时参考信息、偏好信息、系统信息、MCP执
信息、响应信息(外部、推理、反馈交互)….
信息、任务
✦ 静态信息:本地知识库、云端知识库…(知识处理的完整流程框架)
8. 从实践层
对于单个
看记忆增强的必要性
户的 多个 Session
,需要管理: 保障跨Session引
的正确性,整体信息的
歧义等
跨Session信息参考
Session2
Session4
Session6
时间序列
Session1
Session3
Session5
跨Session信息参考
Session7
……
9. 从实践层
应 开发
复杂度急剧增
10. 从实践层
Multi-sessions
11. 从实践层
12. 模型 记忆增强层 的实现路径:(1)模型内
13. 模型外向驱动的记忆增强:通过设计Prompt / Agent 流,模拟记忆过程,增强模型性能
代表性框架 时间 Slogan 技术特点 Star数量
Letta /MemGPT 2023 Create stateful AI agents that truly
remember, learn, and evolve. 开源社区驱动,目标构建具备状态记忆与自我改进能力
的 LLM Agent 平台,非 Production-grade. (是最早受到计
算机系统启发设计记忆框架的) 18.2k
Mem0 2024 Universal memory layer for AI Agents. 纯明文记忆管理框架,较早面向应用层提供记忆管理的
代表性框架。服务生产环境,强调平台化服务。 39.2k
Zep 2024 Build Agents That Recall What Matters. 强调采用 Temporal Knowledge Graph(时序知识图谱)结
构来组织长期记忆 17.6k
Memobase 2025 Profile-Based Long-Term Memory for AI
Applications. 强调用户画像与事件时间线的记忆系统,将会话内容
抽取为结构化 pro le 和事件,并关联时间戳,形成用户
长期记忆 2.1k
Memories.ai 2025 Building AI to See and Remember 强调多模态记忆,把原始视频转化成可搜索、带上下文
关联的数据库,支持SaaS服务 非开源
、清华、交
HippoRAG团队、MIRIX团队、北
模型 记忆增强层 的实现路径:(1)应
、
等
从 Memory面临的创新问题出发,提出了对应的解决方案
14. 模型 记忆增强层 的实现路径对
15. 模型 记忆增强层 的实现路径对
结合两者!
16. 记忆增强层 落地需要做什么?
记忆系统的核
不仅依赖更
的模型与
、能更新、还能共享。
记忆组织 记忆检索 记忆更新 记忆共享
Memory Reader Memory Organization Memory Retrieval Memory Update Memory Sharing
从交互中捕获关
键信息,形成
记忆 段 对记忆进
建模,构建
逻辑与时间关系 按需快速调
相关历史记忆,
辅助推理与 成 动态修正或替换
过时记忆,保持
知识新鲜 跨任务、跨个体
共享知识,实现
知识复
发
幻觉
发
套完整的 记忆操作系统功能链路 —— 让 AI 能记住、能组织、能调
记忆抽取
幻觉
净的数据,更需要
功能点
17. MemOS 的核 设计思路:从 OS 到 记忆操作系统(MemOS)
硬件层
Hardware layer
18. MemOS 的核 设计思路:从 OS 到 记忆操作系统(MemOS)
够灵活?
硬件层
Hardware layer
19. MemOS的系统框架
应
开发层
Agent / Chat / Pipeline
Large Language Models 基座层
20. MemOS的系统框架
应
开发层
Agent / Chat / Pipeline
MemOS(记忆)
MCP( 具)
Large Language Models 基座层
21. MemOS的系统框架
….
Graph DB(向量数据库)
Publish
22. MemOS的系统框架
MCP( 具)
Large Language Models 基座层
23. MemOS的系统框架
户记忆 Cube
….
Graph DB(向量数据库)
Publish
24. MemOS的系统框架
….
Graph DB(向量数据库)
Publish
25. MemOS的系统框架
….
Graph DB(向量数据库)
Publish
26. MemOS的系统框架
27. MemOS的系统框架
记忆分层建模
MemOS(记忆)
记忆调度管理
记忆脑图组织
28. MemOS的系统框架
记忆分层建模
记忆调度管理
MemOS(记忆)
记忆分层建模的意
义与理论基础
记忆脑图组织
29. MemOS的系统框架
记忆调度管理
记忆分层建模
MemOS(记忆)
记忆脑图组织
记忆调度的原理
与技术框架
30. MemOS的系统框架
记忆脑图组织
记忆分层建模
MemOS(记忆)
记忆调度管理
记忆组织 案的
思考点
31. MemOS的核
32. MemOS的核
学会遗忘
33. 从
脑记忆分层到
模型记忆分层:Memory3
Transformer Circuits
Abstract Knowledge Specific Knowledge
抽象知识 具体知识
Separable Knowledge
可分离的知识
Implicit Memory Explicit Memory External Info.
隐性记忆 显性记忆 外部记忆(信息)
Memory Hierarchy
记忆分层
Model Parameters
模型参数
图 1:
模型记忆分层理论(源
Memory3论
)[1]
[1] Yang H, et al. Memory3: Language Modeling with Explicit Memory[J]. Journal of Machine Learning. 2024.
34. 从
表达,下意识就有
Explicit Memory
External Info.
显性记忆 外部记忆(信息)
看过的书/上课的笔记 开卷考试,现场查阅
35. 从
Explicit Memory
External Info.
显性记忆 外部记忆(信息)
看过的书/上课的笔记 开卷考试,现场查阅
KV Cache的缓存(记忆编码) 外部知识库检索
36. 从
Explicit Memory
External Info.
显性记忆 外部记忆(信息)
看过的书/上课的笔记 开卷考试,现场查阅
KV Cache的缓存(记忆编码) 外部知识库检索
Self-Attention计算
重新编码调
37. 从
Explicit Memory
External Info.
显性记忆 外部记忆(信息)
看过的书/上课的笔记 开卷考试,现场查阅
KV Cache的缓存(记忆编码) 外部知识库检索
Self-Attention计算
灵活可更新,读写速度适中
重新编码调
容量最
,但调
最慢
38. 从
脑记忆分层到
模型记忆分层:Memory3
Memory Hierarchy
记忆分层
更新效率低,读取效率
Implicit Memory
隐性记忆
Explicit Memory External Info.
显性记忆 外部记忆(信息)
灵活可更新,读写速度适中
容量最
,但调
最慢
39. MemOS框架下记忆分层管理的划分设计
短期明
记忆
+
+
,产
期明
外置参数记忆 (或代理模型)
的临时
记忆
KV Cache记忆
40. MemOS框架下记忆分层管理的划分设计
短期明
记忆
期明
记忆
41. MemOS框架下记忆分层管理的划分设计
使
短期明
记忆
期明
记忆
42. MemOS框架下记忆分层管理的划分设计
使
短期明
记忆
期明
记忆
脑图记忆组织/抽取、图+向量化存储
主动预测, 将记忆放在最合适的位置
场景自动识别,记忆编排框架
43. 机制
MemOS的核
:记忆调度管理
将记忆放在最合适的位置
[1]
* RAG检索增强的典型范式(被动式检索)
[1] Retrieval-augmented generation for large language models: A survey[J]. arXiv preprint arXiv:2312.10997, 2023
44. 记忆调度建模:从被动式检索到主动式
45. 记忆调度建模:从被动式检索到主动式
构造
模型推理
种典型的阻断检索
延迟,复杂模型
法开展
46. 记忆调度建模:从被动式检索到主动式
法开展
化,缺乏跨块整合能
47. 记忆调度建模:从被动式检索到主动式
法开展
化,缺乏跨块整合能
成本,每次都需重新检索
48. 记忆调度建模:从被动式检索到主动式
Round 2
答案阅读
新Query输
10s 7s
MemCube MemCube
……
49. 记忆调度建模:从被动式检索到主动式
上下
构建
模型回答
Round 2
答案阅读
Query
上下
构建
模型回答
Round 3
答案阅读
……
50. MemOS记忆调度框架
Read
答案阅读
Lineation
Query
Click
上下
构建
系统
模型回答
Round 2
为建模
答案阅读
Add
Query
Search
上下
Delete
构建
Update
模型回答
Round 3
答案阅读
……
……
对话时间线
51. MemOS的核
KnowledgeGraph-based
可推理,容易校验标注
压缩
Xmind-based
易关联,灵活度
适中压缩
, 主动记忆
52. MemOS的核
机制三:记忆脑图组织与检索
主动记忆 :是指 模型在处理输 时,不再仅仅依赖 户检索触发的被动式切 , 是能够 主动分析对话或 档内
容的语义结构,并基于任务 标,对其中需要 期保留的信息进 拆分、筛选、归纳与组织,从 形成 效的思维
导图。
:抽取逻辑分析(形成记忆COT过程)
关键步骤
53. MemOS的核
机制三:记忆脑图组织与检索
主动记忆 :是指 模型在处理输 时,不再仅仅依赖 户检索触发的被动式切 , 是能够 主动分析对话或 档内
容的语义结构,并基于任务 标,对其中需要 期保留的信息进 拆分、筛选、归纳与组织,从 形成 效的思维
导图。
次校验与关联性边重构
:
关键步骤
54. MemOS的核
机制三:记忆脑图组织与检索
丰富的检索特性:
- 主题-路由-事实 路径
- 关键词检索
- 跨Session推理
- 时序节点(版本管理)
55. MemOS的整体性能表现
效 果 对
效 果 对
| 基于LoCoMo数据集的实验性能对
| 基于LongMemEval数据集的实验性能对
MemOS评估结果
MemOS评估结果
成本优化
任务准确率提升
在LoCoMo数据集上,MemOS 相 在四类核 任务中的平均准确率 消耗上显著降低61%,能够 更 MemOS相
较OpenAI 的全局记忆 案提升 少的检索Token达到同样任务效 Mem0、Zep等均具有明显性能
39% 果 优势。
在LongMemEval数据集上,
OpenAI,MemOS在Token
Zep
55.21
60
50
40
30
Temporal
Overall
90.00
Memos
81.99
84.46
78.63
66.42
30
10
Open-domain Task
Full-text
40
10
Multi-hop
内容40%
50
20
Single-hop
幅降低
60
20
0
解码所需填充的上下
80
70
64.30
73.31
,MemOS
以上。
90
Memos
73.21
70
Mem0
78.44
80
Openai
与记忆框架相
通过精准的检索召回,
Zep
90.48
Langmem
相
业内的记忆模型如
Mem0
成本优化
任务准确率提升
0
Single-Session
User
Multi-session
Single-Session
Preference
Temporal
Reasoning
Knowledge
Update
Overall
56. MemOS 的开源框架与OpenMem社区
57. MemOS 的典型应 场景
容,实现连续理解
• 支撑多轮科研对话与
具调用,
提升任务连贯性
教就会, Bad Case 不再复现
已有2w+用户,日均调用超 4000 次
58. One More Thing
59. One More Thing
60. One More Thing:
Merge
61.
62. THANKS
智能始于记忆
张量链接未来
INTELLIGENCE BEGINS WITH MEMORY