乐东黎族自治县网站建设_网站建设公司_前后端分离_seo优化
2025/12/27 11:24:21 网站建设 项目流程

如果说第一课回答了“为什么大家突然都在谈 Agent”,那第 2 课要解决的是一个更关键的问题:Agent 到底是怎么搭出来的?

很多人一上来就学 LangChain、AutoGen、CrewAI,结果看了一堆概念:Tool、Memory、Planner、Router、RAG、Workflow……越看越像“咒语”。其实它们并不神秘:绝大多数 Agent 系统,都能被拆成一套相对稳定的“标准零件”。

这节课我们用五层架构把Agent拆开讲清楚:LLM 层、工具层、记忆层、控制层、接入层。你掌握这五层,就能反过来“读懂”任何 Agent 框架:它解决了哪几层?缺了哪几层?为什么有的Demo看起来很聪明,有的却一跑就翻车?

一、先把“Agent”画成一个闭环

Agent 的本质不是“会说话”,而是一个能持续运行的闭环系统:

输入目标 → 观察环境 → 规划/决策 → 执行动作(调用工具)→ 得到反馈 → 更新状态 → 继续下一步,直到完成。

如果你把 ChatGPT 当成“大脑”,那么 Agent 要补齐的至少还有:

  • 手(工具/执行能力)

  • 记忆(长期信息、任务状态)

  • 中枢神经(控制与调度,让循环能跑起来)

  • 感官与接口(把真实世界接进来:文件、网页、业务系统)

五层架构,正是把这些能力工程化的方式。

二、五层架构总览:你以后看框架就用这张“地图”

我们把一个典型 Agent 系统拆成五层:

  1. LLM 层:负责理解、推理、生成结构化输出(计划/动作/总结)

  2. 工具层(Tools):负责“真正做事”(搜索、数据库、代码执行、发请求、写文件)

  3. 记忆层(Memory):负责“记住什么”和“如何取用”(短期上下文 + 长期存储 + 知识检索)

  4. 控制层(Controller / Orchestrator):负责“让闭环跑起来”(循环、状态机、路由、多 Agent 协作、容错)

  5. 接入层(Interface / Integration):负责“接到哪里去”(网页端、企业 IM、浏览器插件、业务系统、权限/审计)

你可以把它理解为:

  • LLM 决定做什么

  • 工具层负责怎么做

  • 记忆层保存做过什么、学到什么

  • 控制层决定什么时候做、做几步、失败怎么办

  • 接入层把能力交付给用户与系统

接下来逐层讲,做到“能落地、能写代码、能做设计”。

三、LLM 层:不是“聊天”,而是“可控的推理与结构化输出”

在 Agent 中,LLM 的常见职责有三类:

1)任务理解(Intent)

把用户一句话变成明确目标与约束。例如:

“帮我写周报” → 周报周期?团队?项目?格式?数据从哪里来?

2)规划(Plan)

把目标拆解成可执行步骤。

注意:规划不等于输出一段“看起来很合理的流程”,而是要能映射到工具调用。

3)决策与动作选择(Action Selection)

Agent 往往需要 LLM 输出结构化动作,例如 JSON:

action: search_docs args: {query: "...", time_range: "week"}

这样控制层才能解析并执行。

教学提示:为什么要结构化?

因为“自然语言”不可控:

  • 你无法稳定解析

  • 你无法保证字段齐全

  • 你无法做权限校验与审计

因此,Agent 里常用的输出形态是:Plan / Action / Final 三段式,或统一的动作 JSON。

四、工具层:Agent 的“手”,决定上限

工具层是Agent真正价值爆发的地方:没有工具调用,就没有执行力。常见工具类型可以分成四组:

  1. 信息获取类:Web 搜索、内部知识库检索、爬取页面

  2. 数据访问类:数据库查询、数据仓库、BI 接口、表格系统

  3. 生产操作类:写文档、发邮件、创建工单、更新项目状态、提交代码

  4. 计算执行类:Python 运行、SQL 执行、模型推理、图表生成

工具设计的三个关键原则
原则 A:工具要“窄而稳”

不要做一个“万能工具”,而是做“可预测的小工具”

get_weekly_tasks()、 query_sales(date_range)、 update_notion_page(page_id, content)

越窄越好测试、越好权限控制。

原则 B:工具输入输出要强类型

哪怕你不用严格的类型系统,也要在工程上保持一致:

  • 输入字段固定

  • 输出结构固定

  • 错误码明确

原则 C:工具要有“安全边界”

尤其是能写文件、发邮件、改数据库的工具:

  • 增加确认机制(dry-run/二次确认)

  • 增加权限与审计(谁在何时改了什么)

  • 增加速率限制(避免死循环造成灾难)

五、记忆层:不是“把聊天记录存起来”这么简单

记忆层负责三件事:存什么、怎么存、怎么取。

1)短期记忆:上下文窗口

短期记忆通常是对话历史与当前任务状态。工程上要解决“太长了放不下”的问题:

  • 摘要(summary)

  • 关键事实表(facts)

  • 任务进度表(todo / done / next)

2)长期记忆:用户偏好与历史

例如:

  • 你写周报的固定模板

  • 常用称谓与口吻

  • 你所在团队的项目列表 这些信息不该每次都问一遍。

3)知识记忆:RAG / 检索增强

企业里最常见:把制度、产品文档、会议纪要放进可检索系统。

注意:这类记忆不是“记住”,而是“能随时查到”。

教学提示:记忆层最常见的坑

  • 把所有内容都塞进长期记忆 → 垃圾堆,越记越乱

  • 不做“可追溯引用” → 业务问答不可信

  • 不区分“事实”与“推测” → 产生错误沉淀

一个实用做法是:

  • 长期记忆只存“稳定偏好与身份信息”

  • 知识事实走 RAG,并保留引用来源

  • 任务过程走短期状态(可随任务结束清理)

六、控制层:Agent 的“中枢”,决定稳定性与可控性

很多Demo看起来“会自己做事”,核心就在控制层:它让系统按规则循环,而不是让模型自由发挥到失控。控制层通常包含:

1)Agent Loop(循环)

一个最小闭环大概是:

  1. 读取目标与当前状态

  2. 让 LLM 产出下一步动作(或计划)

  3. 执行工具

  4. 把结果写回状态(并可能写入记忆)

  5. 判断是否完成,否则继续

在工程上,你要加两个硬约束:

  • 最大步数(例如最多 8 步)

  • 终止条件(达到目标、无法继续、需要人工介入)

2)路由(Router)

当任务类型不同,应该走不同策略:

  • 问答 → RAG 优先

  • 数据拉取 → 先查数据库再写报告

  • 写代码 → 进入“生成-运行-报错-修复”循环

路由可以由规则做,也可以由 LLM 进行分类,但务必可观测、可回放。

3)多 Agent 协作

企业级常见做法是“分工”:

  • 需求分析 Agent

  • 数据收集 Agent

  • 产出撰写 Agent

  • 校对/合规 Agent

多 Agent 的价值在于:降低单个模型的上下文负担,让每个角色更专注。但它也带来协调成本,因此控制层要负责:

  • 任务分配

  • 结果汇总

  • 冲突解决(多个 Agent 给出不同结论怎么办)

4)容错与回滚

真实系统里一定会失败:接口超时、权限不足、数据为空。控制层要做:

  • 重试策略(指数退避、换工具)

  • 降级策略(只输出建议、不执行写操作)

  • 人工接管点(需要批准才继续)

七、接入层:决定你的 Agent 能不能“进组织、进流程”

接入层解决的是“交付形态”:

  • 你把 Agent 放在网页?飞书/企业微信?IDE 插件?浏览器?

  • 如何做登录、权限、审计?

  • 如何与现有系统对接(OA、CRM、工单、知识库)?

接入层常见能力:

  1. 身份与权限:不同人能调用不同工具

  2. 审计与日志:每一步动作可回放(谁让它改了什么)

  3. 人机协同 UI:在关键节点请求确认(尤其写操作)

  4. 异步任务:周报/报表类任务可能需要 10 分钟跑完,要能后台执行并通知

很多Agent在 Demo 阶段很酷,落地失败往往是因为接入层没做好:没有权限体系,没有审计,业务系统不敢给它“写”的能力。

八、把五层用一个“自动写周报 Agent”串起来

我们拿思考题做示例:自动写周报 Agent 需要哪些工具?哪些是记忆?哪些是行动?

1)它需要的工具(Tools)

最核心通常是“取数 + 产出 + 分发”三类:

  • 任务数据:Jira/飞书项目/禅道/Notion 的任务查询工具

  • 沟通记录:会议纪要、IM 摘要(可选,需权限)

  • 数据指标:数据库/BI 查询(销售、DAU、转化等)

  • 文档生成:写入周报模板(Notion/飞书文档/Google Docs)

  • 分发通知:发邮件/发 IM 给主管(最好带确认)

2)哪些信息属于“记忆”(Memory)

  • 你的周报模板偏好(标题结构、口吻、长度)

  • 团队项目与简称(“A 项目=Phoenix 重构”)

  • 固定收件人/汇报对象

  • 你不希望出现的内容(例如不写加班、不过度承诺)

这些信息稳定且复用,适合长期记忆。

3)哪些属于“行动”(Action)

  • 拉取本周任务清单

  • 汇总完成项、进行中、风险项

  • 查关键指标并生成图表(可选)

  • 写入文档并生成链接

  • 请求你确认后发送给主管

行动的特点是:会改变外部世界或产生可交付物,必须可审计、可回滚。

九、本课小结:你已经掌握了“看懂 Agent”的钥匙

到这里你应该能做到两件事:

  1. 看到任何 Agent 产品/框架,都能用五层去拆:它的工具怎么接?记忆怎么做?控制层怎么防死循环?接入层怎么审计?

  2. 开始用工程视角设计 Agent:不是“让模型更聪明”,而是让系统更可控、更能执行、更能进入组织流程。

下一课我们会进入真正的“动手环节”:

从零实现一个最小可用的 Agent Loop(带工具调用 + 状态管理 + 终止条件),并且用“自动写周报”做一个可扩展的Demo骨架。

本课练习

  1. 选一个你熟悉的业务场景(例如:投放日报、客服质检、招聘筛选),按五层写一页设计:每层需要什么?

  2. 列出你愿意开放给 Agent 的“读工具”和“写工具”,并写出你需要的安全措施(确认、权限、审计)。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询