本文系统梳理基于腾讯元器平台构建“看图写诗词专家”智能体的全流程实操要点,涵盖前期需求锚定、核心功能搭建、Multi_Agent关系配置、测试优化及运维保障等关键环节。该智能体采用Multi_Agent模式开发,核心定位为“图文意境适配的诗词创作智能助手”,具备图片解析、多体裁诗词创作(唐诗、宋词、元曲)、创作思路解读等核心能力,通过主Agent与子Agent的协同联动,实现“看图生成精准意境诗词”的核心目标。为同类Multi_Agent模式智能体的落地实践提供可复用的经验参考。
一 、创意:
平时旅游拍照,收集的漂亮的图片,就想写首诗词,于是我想通过智能体能否实现,正好通过腾讯元器平台的智能体功能,实现了我的想法。
1.1需求拆解与场景定位
围绕“看图写诗词”核心场景,精准拆解“看图写诗词专家”智能体的功能需求与协同逻辑,确保Multi_Agent模式适配业务场景:
- 主Agent核心职责:作为交互中枢,接收用户图片及需求,按规则转交至对应子Agent,收集子Agent输出结果后综合整合并反馈给用户;
- 子Agent功能分工:“图片解析助手”负责精准解析用户上传图片的核心元素(场景、景物、色彩、意境、氛围等);“唐诗宋词元曲助手”负责基于图片解析信息,创作符合意境的唐诗、宋词、元曲作品;
- 协同流转需求:实现“用户上传图片→主Agent转交→图片解析助手解析→解析结果转交唐诗宋词元曲助手→创作完成→主Agent整合输出”的全流程自动化流转;
- 输出规范需求:最终输出结果需包含图片意境解读、对应的唐诗、宋词、元曲各1首。
1.2环境与资源筹备
- 平台账号配置:完成腾讯元器官网(https://yuanqi.tencent.com)注册登录,支持微信、手机号、QQ多渠道认证,确保账号具备智能体创建、配置及Multi_Agent关联权限;
- 基础信息规划:确定主Agent及子Agent的名称、核心功能简介、视觉标识(头像),规划发布渠道(微信小程序、企业微信、Web嵌入等),匹配个人创作、文化传播等不同使用场景;
- 测试素材准备:收集不同类型的测试图片(自然风景、人文场景、花鸟虫鱼、四季景致等),覆盖多种意境风格,用于后续功能测试验证。
二、核心搭建:全流程实操步骤(腾讯元器平台)
2.1 智能体创建与基础配置(Multi_Agent体系搭建)
主Agent创建:登录平台后,点击首页“新建智能体”,选择“对话式智能体”,命名为“看图写诗词专家”,简介设置为“专注根据图片意境创作唐诗、宋词、元曲的智能专家,精准适配图文意境,输出多体裁诗词作品”,完成基础视觉标识配置;将模式切换为Multi_Agent 模式。
子Agent创建:将模式切换为Multi_Agent 模式。
- 创建“图片解析助手”智能体:选择“对话式智能体”,简介为“专注解析图片核心元素、意境氛围的智能助手,为诗词创作提供精准图文匹配依据”;
- 创建“唐诗宋词元曲助手”智能体:选择“对话式智能体”,简介为“精通唐诗宋词元曲创作格律与意象运用,可根据图片解析信息创作适配意境的诗词作品”。
进入配置界面:分别进入主Agent及两个子Agent的核心配置页面,完成模型选型、提示词设计、知识库搭建等后续配置。
2.2模型选型与参数优化
结合Multi_Agent各角色的功能特性,选择适配的模型,确保解析精度与创作质量:
进入各Agent的“模型设置”模块:选择默认的DeepSeek-V3-0324大模型,也可选其他LLM;
2.3提示词设计:定义各Agent核心能力边界与协同规则
提示词是明确各Agent角色定位、功能边界及协同逻辑的核心,需精准设计主Agent与子Agent的提示词模板,确保协同流转顺畅:
主Agent(看图写诗词专家)提示词模板:
#角色
看图写诗词专家
# 任务
作为交互中枢,负责接收用户上传的图片及需求,按规则将不同类型话题转交给对应子Agent,收集所有子Agent的答案后进行综合整合,最终向用户输出完整结果。
# 核心协同规则
1. 接收用户需求后,首先判断话题类型:若涉及图片解析相关内容(如图片里有什么、图片意境是什么等),禁止直接回答,立即转交给“图片解析助手”Agent,待收集解析结果后再进行后续处理;
2. 若涉及诗词写作相关内容(如根据图片写唐诗、创作适配意境的宋词等),禁止直接回答,立即转交给“唐诗宋词元曲助手”Agent,待收集创作结果后再进行后续处理;
3. 当用户上传图片并提出“看图写诗词”需求时,先将图片转交给“图片解析助手”,获取解析结果后,自动将解析结果转交给“唐诗宋词元曲助手”,并同步告知创作需求(需包含唐诗、宋词、元曲各1首);
4. 收集到“唐诗宋词元曲助手”的创作结果后,需整合“图片解析要点”与“诗词作品”,按规范格式输出,必要时可补充创作思路说明。
# 输出标准
最终输出需包含三部分:
1. 图片意境解析:提炼图片核心元素、氛围意境;
2. 诗词作品:分别呈现唐诗、宋词、元曲各1首,标注作品体裁;
3. 创作说明(可选):简要说明诗词与图片意境的适配逻辑、格律规范遵循情况。
# 能力边界
1. 不直接处理图片解析与诗词创作任务,仅负责规则判断、任务转交与结果整合;
2. 若用户需求超出“看图写诗词”范畴,需明确告知无法处理。
子Agent提示词模板:
- 图片解析助手:
#角色
图片解析助手
# 任务
专注解析用户上传图片的核心元素与意境氛围,为诗词创作提供精准的图文匹配依据。
# 核心能力
1. 精准识别图片中的核心景物(如山水、花鸟、人物、建筑等)、色彩搭配、季节特征、时间场景(如清晨、黄昏、雨夜等);
2. 提炼图片传递的意境氛围(如静谧、壮阔、婉约、苍凉、喜庆等);
3. 输出结构化的解析结果,便于“唐诗宋词元曲助手”精准获取创作依据。
# 输出标准
解析结果需结构化呈现:
1. 核心元素:分点列出图片中的关键景物、色彩、场景等;
2. 意境氛围:明确图片传递的核心氛围;
3. 创作适配建议:简要说明适合的诗词体裁及核心意象方向(可选)。
# 能力边界
仅负责图片解析,不进行任何诗词创作相关回应。
- 唐诗宋词元曲助手:
#角色
唐诗宋词元曲助手
# 任务
精通唐诗、宋词、元曲的创作格律与意象运用,根据“图片解析助手”提供的解析结果,创作适配意境的诗词作品。
# 核心能力
1. 严格遵循唐诗(五言、七言绝句/律诗)、宋词(指定词牌或自选适配词牌)、元曲(指定曲牌或自选适配曲牌)的创作格律;
2. 精准匹配图片解析的意境氛围,选用适配的意象、词汇,确保诗词与图片高度契合;
3. 可根据需求调整诗词的语言风格(如典雅、通俗、豪放、婉约等)。
# 输出标准
1. 分别创作唐诗、宋词、元曲各1首,每首作品需标注体裁、题目(可选);
2. 作品需附简要说明,标注遵循的格律规范、核心意象及与图片意境的适配逻辑;
3. 语言需符合对应体裁的时代语言特征,避免现代词汇混入。
# 能力边界
仅根据图片解析结果进行诗词创作,不直接接收用户图片,不处理图片解析相关问题。
2.4 Multi_Agent协同关系配置(核心关键步骤)
通过腾讯元器平台的“Agent联动”功能,配置主Agent与子Agent的转交关系,实现协同自动化流转:
主Agent与子Agent关联:进入主Agent的“Agent联动”配置模块,点击“添加关联Agent”,分别关联“图片解析助手”和“唐诗宋词元曲助手”,设置关联类型为“任务转交”;
- 转交规则配置:
设置主Agent→图片解析助手转交规则:当用户输入包含“图片”“看图”“解析图片”等关键词,或用户上传图片时,自动触发转交;
- 设置主Agent→唐诗宋词元曲助手转交规则:当收到“图片解析助手”的解析结果后,自动将解析结果及“创作唐诗、宋词、元曲各1首”的需求转交给该子Agent;
- 设置结果回流规则:配置两个子Agent的输出结果自动回流至主Agent,主Agent接收完成后触发整合输出流程。
流转测试:在平台测试界面模拟用户上传图片,验证转交规则是否生效,即主Agent是否能自动将图片转交给“图片解析助手”,解析结果是否能自动转交“唐诗宋词元曲助手”,最终结果是否能回流主Agent并整合输出。
- 引导配置:提升用户使用体验
主Agent欢迎语优化:进入“欢迎语”模块,设置精准引导话术:“您好!我是看图写诗词专家,可根据您上传的图片创作适配意境的唐诗、宋词、元曲。请直接上传图片,或说明您的具体需求(如‘根据这幅山水图创作婉约风格的诗词’)。”;
示例问题配置:添加3-5个高频场景示例,降低用户使用门槛,例如:“1. 上传一幅秋日落叶图,创作唐诗、宋词、元曲;2. 帮我解析这幅荷花图的意境;3. 根据图片创作豪放风格的唐诗和宋词。”
三、集成发布:打通多渠道,实现全场景落地
3.1多渠道发布适配
结合不同用户使用场景,选择精准发布渠道,实现全场景覆盖:
- 个人创作场景:优先发布为微信小程序,支持用户随时上传图片、获取诗词作品,适配移动端便捷使用需求;
- 文化传播场景:发布至企业微信或公众号,支持机构用户用于文化活动互动、诗词教学等场景;
- Web端场景:采用“Web嵌入”模式,集成至文化类网站、教育平台,拓展使用渠道。
四、测试优化:保障Multi_Agent协同效果
4.1全维度测试验证
组建测试团队,针对Multi_Agent协同逻辑、功能准确性等开展全场景验证:
- 协同逻辑测试:模拟用户上传不同类型图片,验证主Agent是否能精准执行转交规则,子Agent是否能按要求完成解析与创作,结果是否能顺畅回流整合;
- 功能准确性测试:验证图片解析助手对核心元素、意境的提炼精度,唐诗宋词元曲助手创作作品的格律规范性、意境适配性;
- 边界处理测试:验证主Agent对超出范畴需求的应对能力,子Agent对直接接收用户图片/创作需求的拒绝逻辑;
- 性能稳定性测试:测试图片上传后的响应速度(目标:解析≤3秒,创作≤10秒,整合输出≤2秒)、并发访问承载能力。
4.2迭代优化策略
基于测试反馈,从四大维度开展优化:
- 提示词迭代:补充未覆盖的协同场景规则,细化子Agent的解析与创作标准,提升协同精准度;
- 协同规则优化:调整转交触发条件,优化结果整合格式,提升流转效率与输出可读性;
- 模型调优:若解析精度或创作质量不足,切换至更适配的模型,微调温度系数等核心参数。
五、运维保障:实现长效稳定运行
5.1日常运维核心要点
- 运行数据监控:通过腾讯元器后台“运营数据”模块,实时监控各Agent的使用频率、协同流转成功率、高频问题等数据,提前预警潜在问题;
六、场景洞察、搭建思路与实现路径
6.1场景洞察:直击图文创作协同核心痛点
当前图文创作领域,“看图写诗词”存在两大核心痛点:一是普通用户难以精准提炼图片意境,导致创作的诗词与图片契合度低;二是专业诗词创作门槛高,需精通格律与意象运用,普通用户难以掌握。同时,文化传播、教育教学等场景对“图文适配的多体裁诗词创作”需求日益增长,要求创作过程高效、作品规范、意境贴合。这为“看图写诗词专家”智能体搭建提供了清晰锚点——通过Multi_Agent模式,将“图片解析”与“诗词创作”拆分为专项任务,由不同子Agent精准完成,主Agent负责协同流转,实现“低门槛、高精度、高效率”的看图写诗词服务。
6.2搭建思路:构建“分工协同”的Multi_Agent核心框架
基于场景洞察,确立“专项分工、协同流转、精准输出”的核心思路,构建“主Agent中枢+子Agent专项执行”的Multi_Agent框架:一是明确主Agent的“中枢定位”,不参与具体业务执行,仅负责规则判断、任务转交与结果整合,确保协同逻辑清晰;二是强化子Agent的“专项能力”,让“图片解析助手”专注提升解析精度,“唐诗宋词元曲助手”专注保障创作质量,实现“术业有专攻”;三是规范协同流转规则,明确各Agent的输入输出标准,确保信息传递精准,避免协同断层。
七、实战心得:从搭建到落地的关键经验
7.1角色分工要清晰:避免Multi_Agent功能重叠
实战中发现,Multi_Agent搭建的核心误区是角色分工模糊,导致协同混乱。建议在搭建前绘制清晰的“角色功能图谱”,明确主Agent与子Agent的职责边界、输入输出标准,例如主Agent仅负责转交与整合,绝对不参与解析或创作;子Agent仅负责专项任务,不直接对接用户需求。清晰的分工是保障协同顺畅的基础。
7.2提示词设计要精准:细节决定协同与输出质量
提示词是Multi_Agent协同的“核心规则”,需规避模糊表述。主Agent的提示词要明确转交触发条件、结果整合格式;子Agent的提示词要细化功能标准,例如图片解析需明确列出核心元素、意境等必含项,诗词创作需明确格律要求、体裁数量。同时要善用平台“一键优化”功能,提升提示词的逻辑严谨性。
7.3协同测试要全面:覆盖全流转场景
Multi_Agent的协同逻辑复杂,测试需覆盖“用户需求输入→主Agent判断→子Agent执行→结果回流→整合输出”全流转链路,同时要测试边界场景(如用户直接向子Agent提需求、上传模糊图片等),确保各Agent均能按规则响应。建议采用“场景化测试法”,模拟不同用户的真实使用场景,全面验证协同效果。
7.4持续迭代要聚焦:围绕用户体验优化
智能体落地后,需建立常态化迭代机制,迭代重点聚焦用户体验:通过运营数据监控高频问题,例如若用户反馈“诗词与图片意境不符”,则优化图片解析助手的意境提炼规则与唐诗宋词元曲助手的意象适配逻辑;若反馈“输出格式不清晰”,则优化主Agent的结果整合格式。持续贴合用户需求,才能提升用户接纳度。
八、心得体会
基于腾讯元器,可以快速搭建实用的智能体,如“看图写诗词专家”智能体,核心在于以Multi_Agent模式的“分工协同”为核心,通过清晰的角色定位、精准的提示词设计、完善的协同规则,实现图片解析与诗词创作的高效适配。腾讯元器平台的多Agent创建、联动配置等功能,大幅降低了Multi_Agent智能体的搭建门槛,同时丰富的模型选择与插件生态,确保了智能体的功能完整性与落地性。未来可进一步拓展知识库内容,新增方言语音输入、诗词赏析等功能,提升智能体的文学性与互动性,适配更多文化创作与教育场景需求。
九、使用链接
1:PC端 访问链接:
https://yuanqi.tencent.com/webim/#/chat/nhddcs?appid=2005256707695045632&experience=true