AI Agent开发(3) -如何做上下文管理？

张开发

• 2026/4/8 13:19:17 • 15 分钟阅读

分享文章

目录前言思路collection设计示例前言书接上文https://blog.csdn.net/roadtohacker/article/details/156004134在Agent开发中上下文信息的处理很重要当用户给出新的输入的时候如何让模型保持对旧消息的记忆我们知道对于大模型而言有知识和记忆两种数据输入。模型训练固化下来的参数和外挂的知识库可以认为是模型的知识模型还有长期记忆和短期记忆长期记忆可以理解为用户长时间之前的输入或者说用户画像短期记忆就是用户最近的输入。但每次请求对于模型而言都是独立的也就是说模型本身不会记住之前的输入因为它本身的参数不会跟着输入的变化而变化(但谷歌、英伟达在做类似的研究https://www.thepaper.cn/newsDetail_forward_32133128https://36kr.com/p/3647056233926277让模型在推理贵过程中动态调整参数实现真正的“记忆”)所以说让模型拥有记忆实际上是一个工程问题。思路一个简单的办法是把所有的对话都原封不动的发送给大模型这样能够保留所有的记录但问题是这样token的增长是线性的如果不控制一会就超过上下文限制了而且这种方式是把不太重要的消息跟重要的消息注意力提到同等位置也会导致模型忽略了重要的信息。所以我们可以考虑短期记忆和长期记忆结合的方式来做上下文的管理。对于短期记忆我们可以保留最近的n nn轮完整用户对话只需要把最近n nn轮对话原封不动再发送给大模型即可这样最近若干轮用户的输入模型一定是原原本本的保存下来的对于长期记忆可以通过摘要向量数据库(milvus)存储的方式对用户的输入到向量数据库与检索topk个历史记录把它跟短期记忆结合到一块这样就实现了完整的上下文记忆collection设计var(ChatHistoryCollectionCollection{Name:CHatHistoryCollectionName,Schema:entity.Schema{Description:AI助手用户对话历史表,CollectionName:CHatHistoryCollectionName,Fields:[]*entity.Field{{Name:id,DataType:entity.FieldTypeInt64,AutoID:true,PrimaryKey:true,},{Name:user,DataType:entity.FieldTypeVarChar,TypeParams:map[string]string{max_length:255,},},{Name:request_id,DataType:entity.FieldTypeVarChar,TypeParams:map[string]string{max_length:255,},},{Name:session,DataType:entity.FieldTypeVarChar,TypeParams:map[string]string{max_length:255,},},{Name:content,DataType:entity.FieldTypeVarChar,TypeParams:map[string]string{max_length:65535,},},{Name:vector,DataType:entity.FieldTypeFloatVector,TypeParams:map[string]string{dim:1024,},},{Name:timestamp,DataType:entity.FieldTypeInt64,TypeParams:map[string]string{max_length:255,},},},},})// DB初始化func(a*AgentMilVusClient)DBInit(ctx context.Context)error{collections:[]Collection{ChatHistoryCollection,}for_,collection:rangecollections{has,err:a.MilVusCli.HasCollection(ctx,milvusclient.NewHasCollectionOption(collection.Name))iferr!nil{returnerr}ifhas{log.Logger.Info(AgentMilVusClient found collection, skipped,name,collection.Name)}else{log.Logger.Info(AgentMilVusClient creating collection...,name,collection.Name)iferra.MilVusCli.CreateCollection(ctx,milvusclient.NewCreateCollectionOption(collection.Name,collection.Schema));err!nil{returnerr}}index:milvusindex.NewGenericIndex(vector_index,map[string]string{metric_type:string(entity.COSINE),})log.Logger.Info(AgentMilVusClient creating index...,name,collection.Name,index,index.Name())createdIndexTask,err:a.MilVusCli.CreateIndex(ctx,milvusclient.NewCreateIndexOption(CHatHistoryCollectionName,vector,index))iferr!nil{log.Logger.Error(err,failed to create index,name,collection.Name)returnerr}iferrcreatedIndexTask.Await(ctx);err!nil{log.Logger.Error(err,failed to create index,name,collection.Name)returnerr}if_,erra.MilVusCli.LoadCollection(ctx,milvusclient.NewLoadCollectionOption(CHatHistoryCollectionName));err!nil{log.Logger.Error(err,failed to load collection,name,collection.Name)}log.Logger.Info(AgentMilVusClient has created collection,name,collection.Name)}returnnil}示例下面是一个长短期记忆结合的例子// loadUserHistory topK组长期记忆最近k轮短期记忆func(a*AgentService)loadUserHistory(ctx context.Context,cDto*dto.ChatDto,kint)[]*schema.Message{results,err:a.agentMilVusCli.Search(ctx,milvuscli.AgentSearchParams{TopK:5,Message:cDto.Message,FieldNames:[]string{content},Session:cDto.Session,User:cDto.Erp,})varmsgs[]*schema.Messageiferr!nil{log.Logger.Error(err,failed to search from milVus,user,cDto.Erp,session,cDto.Session)}else{for_,result:rangeresults{contentCol:result.GetColumn(content)fori:0;iresult.ResultCount;i{content,err:contentCol.Get(i)iferr!nil{log.Logger.Error(err,failed to get the content,user,cDto.Erp,session,cDto.Session)continue}msgsappend(msgs,schema.SystemMessage(gconv.String(content)))}}}returnappend(msgs,a.loadUserHistoryFromRedis(ctx,cDto,k)...)}上面是一个简单的思路但生产环境可能遇到下面的问题仅用“固定保留最近n轮”容易在长对话、长输入时爆token上限或把无关长段文字保留而挤占真正重要信息。单纯“向量top-k”易命中相似但不关键的片段且易受长文本噪声影响。具体实现需要结合下面的指标检测进行动态调整设定指标检索命中率是否命中真正所需记忆、答案正确率/一致性、摘要一致性与抽取真值对齐度、时延与token成本。灰度与A/B对记忆策略n、topk、权重公式做可控实验落库版本化便于回滚。

AI Agent开发(3) -如何做上下文管理？

最新文章

军情推演系统

第十四届蓝桥杯CB组（2023年）题解

4个维度解析：winget-install的自动化部署实践

ICRA 2025叉车顶会论文拆解：不用真实数据，如何实现AGV视觉零样本Sim2Real？

旧衣服免费上门回收，爱裹回收半小时搞定衣柜大清理！

10吨卧式绕线机的设计【任务书+说明书+CAD图纸+Creo三维+中英文翻译文献】

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于单片机的环境数据采集小车（有完整资料）

STM32硬件I2C驱动AS5600磁编码器：从CubeMX配置到完整代码实现

cfn-lint高级配置技巧：覆盖规范与条件处理详解

如何用Music Tag Web打造专业级音乐收藏库：从混乱到有序的完整方案

开源可审计翻译方案：translategemma-27b-it保障数据隐私与合规性

ARM交叉编译避坑指南：搞懂-mfloat-abi参数，告别ABI不兼容的诡异错误

RMBG-1.4效果实测：AI净界对镜面反光、水滴、玻璃瓶等高难度场景

MySQL 索引实战详解:为什么B+类型的索引查询更快

Agent初级

基础入门-常见服务搭建-数据库：MySQL / MariaDB 安装与基本操作

Nacos 3.x 学习: 从配置模块深入理解Nacos(二)

QMCDecode：如何打破音乐格式枷锁，让数字资产重获自由

AI Agent开发(3) -如何做上下文管理？

最新文章

军情推演系统

第十四届蓝桥杯CB组（2023年）题解

4个维度解析：winget-install的自动化部署实践

ICRA 2025叉车顶会论文拆解：不用真实数据，如何实现AGV视觉零样本Sim2Real？

旧衣服免费上门回收，爱裹回收半小时搞定衣柜大清理！

10吨卧式绕线机的设计【任务书+说明书+CAD图纸+Creo三维+中英文翻译文献】

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统