本文深入解析AI Agent记忆系统,揭示其解决大模型"金鱼脑"问题的关键。系统包含三大核心问题:记忆形成、进化与检索;三种形态:Token级、参数化与潜变量记忆;三大功能:事实记忆、经验记忆与工作记忆。文章介绍20+开源框架与30+评估基准,并展望生成式记忆、自动管理等7大未来方向,为AI产品经理提供记忆系统设计指导。
🔍 AI Agent的记忆系统究竟如何工作?北大、NUS最新论文揭秘
大家好,我是Hedy,一名AI产品经理!
最近和几位做Agent产品的朋友们聊天,发现大家都有一个共同的头疼问题:为什么我的Agent聊了几轮后就开始答非所问?为什么总记不住用户偏好?为什么同样的错误一犯再犯?
这些问题的本质,都指向同一个关键技术——Agent的记忆系统。
今天,我将带大家深入拆解一篇重磅论文,这是一项由北京大学、新加坡国立大学、复旦大学、中国人民大学等顶尖高校联合研究的成果,把AI Agent记忆这个复杂话题彻底讲透。
形态&功能&动态定位图
一、为什么Agent需要记忆系统?
先说一个残酷的事实:大语言模型本质上是金鱼大脑。
什么意思呢?当你关闭对话窗口,或者上下文超过token限制时,LLM就会把之前的一切忘得一干二净。这对简单问答没问题,但对需要持续交互的Agent来说是灾难性的。
想象这个场景:
- 第1轮:你告诉AI助手你喜欢咖啡不喜欢茶
- 第10轮:它给你推荐了一堆茶饮
- 第20轮:它又问你喜欢喝什么饮料
这就是没有记忆系统的典型表现。
而一个真正有记忆的Agent应该能够:
- 记住事实:你的偏好、历史对话、任务状态
- 学习经验:哪些方法有效、哪些策略失败过
- 保持专注:在长时间对话中保持任务连贯性
这篇论文提出了一个核心观点:Agent记忆不是简单的上下文扩展,而是一个可读、可写、可生长、可遗忘的插件式记忆系统。
二、Agent记忆的三大核心问题
这篇论文用一个超级清晰的框架,将Agent记忆拆解为三个核心环节:
1. 形成(Formation):记忆如何产生?
就是将原始交互数据提炼成结构化记忆单元的过程。
例如,如果你和AI助手聊了半小时旅行,它需要从这些对话中提取:
- 你喜欢海边胜过山区
- 你的预算是5000-8000元
- 你更喜欢自由行而非跟团
这个过程可以通过语义摘要、知识蒸馏、结构化等技术实现。
2. 进化(Evolution):记忆如何演变?
记忆不是静态的,需要持续更新、合并,甚至遗忘。
想想人脑:
- 合并:将多次对话中相同的信息合并
- 更新:用新信息修正旧记忆中的错误
- 遗忘:清理不重要或过时的记忆,避免污染
例如,你一开始说喜欢咖啡,后来又说其实更喜欢茶,Agent就需要能够更新这个偏好记忆。
3. 检索(Retrieval):如何调用记忆?
有记忆不够,关键是要能在需要时准确调用出来。
检索包含四个关键步骤:
- 触发时机:何时应该检查记忆?
- 查询结构:如何将当前问题转化为检索查询?
- 检索策略:如何找到最相关的记忆?
- 后处理:如何过滤、排序、压缩检索结果?
这三个环节构成了记忆的完整生命周期,缺一不可。
三、记忆的三种形态:不只是长短期记忆
传统上,我们习惯将记忆分为长期记忆和短期记忆,但这篇论文提出了更科学的分类方法,根据记忆的载体形态将记忆分为三类:
形态1:Token级记忆(人类可读)
这是最直观的记忆形式,以文本、JSON、图结构等形式存储。
优势:
- 人类可直接阅读和修改
- 易于调试和审计
- 更新成本低
适用场景:
- 聊天机器人的对话历史
- 法律文档的审计轨迹
- 需要可解释性的应用
这种记忆还可按复杂度细分:
- 1D平面型:如对话日志这样的线性序列
- 2D平面型:树状或图状结构,如推理树
- 3D层次型:多级结构,如原始文档→摘要→关键问答
形态2:参数化记忆(写入参数)
这种记忆直接嵌入在模型的参数权重中。
优势:
- 推理时无需额外检索
- 响应速度快
- 适合高频使用的知识
劣势:
- 人类无法直接查看
- 更新成本高,需要微调
适用场景:
- 角色扮演Agent的个性特征
- 特定领域的专业知识
- 代码生成的编程范式
形态3:潜变量记忆(机器可读)
这是最轻量级的记忆形式,以KV缓存或Embedding向量形式存储。
优势:
- 更新成本极低
- 适合边缘设备部署
- 支持多模态融合
适用场景:
- 端侧AI应用
- 实时视频理解
- 多模态交互场景
这三种形态并无优劣之分,应该根据具体场景选择合适的组合。
四、记忆的三大功能:Agent到底该记住什么?
有了形态还不够,更重要的是明确Agent需要记住什么。论文将记忆功能分为三类:
功能1:事实记忆(Factual Memory)
核心定位:我知道什么
这类记忆存储客观的陈述性知识,包括:
- 用户画像:偏好、习惯、背景信息
- 文档状态:任务进度、历史行为
- 世界知识:领域概念、实体关系
典型应用:
- 个性化推荐系统
- 多轮对话中的上下文维护
- 长期目标对齐保障
例如,智能客服记住你上次咨询的问题、你的会员等级、购买过的产品,这些都是事实记忆。
功能2:经验记忆(Experiential Memory)
核心定位:我学到了什么
这是Agent进化的关键,从过去经验中学习,包括:
- 成功案例:哪些方法有效
- 失败教训:踩过哪些坑
- 策略模板:提炼出的通用解决方案
- 技能库:可复用的能力模块
论文根据抽象程度将经验记忆分为四个层次:
Level 1 - 基于案例直接存储原始完整轨迹,就像视频回放。 例子:JARVIS-1记录完整的任务执行过程
Level 2 - 基于策略提炼出通用工作流程和决策树。 例子:AWM总结出处理某类问题的标准流程
Level 3 - 基于技能提炼成可直接调用的代码或API。 例子:Voyager积累了Minecraft技能代码库
Level 4 - 混合型综合使用多种记忆表示。 例子:ExpeL既保存轨迹也保存策略
功能3:工作记忆(Working Memory)
核心定位:我现在在想什么?
这是Agent的瞬时工作台,负责:
- 当前任务的上下文
- 中间推理步骤
- 临时状态管理
关键作用:
- 长期任务规划中的状态跟踪
- 实时决策所需的即时信息
- 注意力焦点的动态调整
可以理解为人类大脑的前额叶功能,负责短期信息的临时存储和处理。
这三种记忆并非孤立,而是协同工作:事实记忆提供背景知识,经验记忆指导行动策略,工作记忆维持执行连贯性。
五、市场上成熟的记忆框架有哪些?
目前比较常用的有20+开源框架,我挑几个最值得关注的:
1. MemGPT:分层记忆管理
核心特点:
- 模仿操作系统的分页机制
- 将记忆分为短期记忆和长期记忆
- 在两者之间自动调度
适用场景:
- 长对话问答
- 大文档解析
- 需要上下文连贯性的应用
我在一个客服系统中用过类似机制,效果真的很好,长对话的连贯性明显提升。
2. Mem0:图+向量混合存储
核心特点:
- 同时使用知识图谱和向量数据库
- 保留结构化关系的同时支持语义检索
- 支持多种记忆类型
适用场景:
- 个性化交互场景
- 需要复杂关系推理的应用
- 多Agent协作系统
3. Zep:时序知识图谱
核心特点:
- 重点关注时间维度的记忆管理
- 自动记录事件的时间关系
- 支持记忆的演化追踪
适用场景:
- 多轮对话的一致性维护
- 需要历史回溯的场景
- 时间敏感的任务规划
4. MemOS:树结构+记忆立方体
核心特点:
- 用多维结构组织记忆
- 支持分层记忆检索
- 覆盖各类记忆管理
适用场景:
- 复杂任务规划
- 多目标协同优化
- 大规模知识管理
5. Pinecone:向量数据库优化
核心特点:
- 专注高性能向量检索
- 支持亿级规模embedding存储
- 低延迟查询优化
适用场景:
- 大规模检索场景
- 多模态记忆管理
- 需要极致性能的应用
这些框架各有侧重,选择时应根据你的具体需求:
- 重视可解释性 → MemGPT或Mem0
- 需要时序追踪 → Zep
- 追求极致性能 → Pinecone
- 场景复杂多变 → MemOS
六、如何评估记忆系统的质量?
有框架还不够,如何知道记忆系统做得好不好?论文总结了30+评估基准,分为两类:
直接评估:专门测试记忆能力
MemBench
- 包含53,000个测试样本
- 覆盖记忆形成、检索、更新全过程
- 业内认可度最高
LongMemEval
- 专注长期记忆保持能力
- 测试记忆随时间的衰减
- 适合评估持久性协议
PersonaMem
- 评估动态用户画像的保持性
- 测试偏好变更时的更新机制
- 聚焦个性化场景
间接评估:从任务表现反推记忆质量
WebArena
- 真实网页交互任务
- 需要跨页面维持上下文
- 测试工作记忆的稳定性
SWE-Bench
- 代码修复任务
- 需要理解整个代码库上下文
- 测试事实和经验记忆的综合运用
GAIA
- 深度研究任务
- 需要长期知识积累
- 测试记忆的全方位能力
特色维度评估
MM-Needle (多模态)
- 在多模态数据流中寻找特定信息
- 测试跨模态记忆整合能力
HaluMem (防幻觉)
- 专门检测记忆引起的幻觉问题
- 评估记忆的可靠性和准确性
LifelongAgentBench (终身学习)
- 测试Agent持续学习能力
- 评估记忆的演化和适应性
选择评估标准时,应明确你关注的核心指标:
- 准确性?持久性?还是灵活性?
- 单任务表现还是综合能力?
- 短期效果还是长期演化?
七、Agent记忆的未来方向
论文最后总结了7个值得关注的前沿方向,我认为每个都可能改变Agent产品的形态:
方向1:生成式记忆
传统做法:检索已有记忆未来方向:生成缺失的记忆
想象当Agent发现记忆中没有相关信息时,它不会简单地说不知道,而是基于现有知识合理推测并生成一个记忆。
这类似于人类的联想记忆,比如你忘了朋友的生日,但能从其他线索推断出大概时间。
方向2:自动记忆管理
传统做法:开发者手动配置记忆策略未来方向:Agent自主决定记住什么、删除什么、改变什么
将记忆管理封装成Agent可调用的工具,让Agent自行学习什么该记、什么该忘、何时更新。
这将大大降低记忆系统的维护成本。
方向3:强化学习驱动的记忆优化
传统做法:手动设置记忆阈值和规则未来方向:用RL端到端优化记忆策略
让Agent通过强化学习自行探索最优的记忆管理策略,包括:
- 何时存储记忆
- 何时检索记忆
- 何时更新或遗忘记忆
方向4:多模态记忆融合
传统做法:以文本记忆为主未来方向:统一处理视频、音频、传感器等多模态数据
将所有模态信息映射到统一的embedding空间,支持跨模态记忆检索。
例如,你给Agent展示一段视频,之后可以用文字描述来回忆那段视频的内容。
方向5:多Agent共享记忆
传统做法:每个Agent独立维护记忆未来方向:多个Agent共享和交换记忆
但这里有个关键挑战:角色权限和隐私。
需要解决的问题:
- 什么记忆可以共享?
- 如何避免群体幻觉?
- 如何保护敏感信息?
方向6:世界模型记忆
传统做法:缓存历史交互帧未来方向:构建可查询的状态模拟器
不只是记住发生了什么,而是构建一个能预测将会发生什么的世界模型。
这让Agent能在记忆中进行假设推理,比如"如果我当时那样做会怎样?"
方向7:可信记忆
传统做法:记忆的安全性常被忽视未来方向:支持差分隐私、可验证遗忘、审计日志
这在企业级应用中尤其重要:
- 差分隐私:防止记忆泄露用户隐私
- 可验证遗忘:证明某些数据已被完全擦除
- 审计日志:追踪记忆的修订历史
- GDPR合规:支持用户数据擦除权
这7个方向并非孤立,未来的Agent记忆系统很可能是这些技术的综合体现。
八、给AI产品经理的三条建议
看完这篇论文,结合我自己的实践经验,想给大家三条建议:
1. 记忆不是可选项,而是必需品
如果你的Agent产品涉及:
- 多轮对话
- 个性化服务
- 持续学习
- 复杂任务规划
那么记忆系统不是锦上添花,而是基础设施。
不要等到用户抱怨对话不连贯时才想起它。
2. 选择记忆方案要务实
不要盲目追求最新最炫的技术,而是根据实际需求选择:
考虑这些问题:
- 你的场景需要多长的记忆保留?
- 对可解释性要求多高?
- 记忆更新频率如何?
- 用户规模和数据量有多大?
- 对响应延迟有何限制?
决策框架:
- 以短期记忆为主 → 工作记忆+潜变量形式
- 个性化服务 → 事实记忆+Token级形式
- 持续学习 → 经验记忆+参数化形式
- 复杂推理 → 多层次Token级记忆
3. 记忆的演化与遗忘同样重要
很多团队只关注如何存储和检索记忆,却忽视了记忆的生命周期管理。
实操建议:
定期清理过期记忆
- 设置合理的TTL(过期时间)
- 基于访问频率进行冷热分层
- 及时删除冲突或错误的记忆
建立记忆更新机制
- 新信息覆盖旧信息的规则
- 冲突信息的仲裁策略
- 用户反馈的快速修正通道
监控记忆质量
- 定期检查记忆准确性
- 追踪记忆导致的错误率
- 建立记忆的A/B测试机制
考虑隐私与合规
- 敏感信息加密存储
- 支持用户删除个人数据
- 保留审计日志
九、总结
Agent的记忆系统是一个庞大而精密的工程,涉及形态设计、功能规划、动态管理等多个维度。
给大家提供一个完整的分析框架:
关键要点回顾:
- 为什么需要记忆:解决LLM金鱼脑问题,Agent必须有外部记忆系统
- 记忆的形态:Token级、参数化、潜变量三种形态
- 记忆的功能:事实记忆、经验记忆、工作记忆
- 记忆的动态性:形成→演化→检索的完整生命周期
- 工具与评估:20+开源框架,30+评估基准
- 未来方向:生成式、自动化、RL驱动、多模态等7大趋势
作为AI产品经理,我们不需要实现所有技术细节,但必须理解记忆系统的核心逻辑,才能设计出真正有竞争力的Agent产品。
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新AI产品经理全套籽料,大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】