在 AI 圈子里,如果说 2023 年是“大模型(LLM)元年”,那么 2024 年无疑是“Agent(智能体)元年”。
很多人会有疑问:我用的 ChatGPT 已经是人工智能了,为什么又冒出来一个 Agent?它俩到底有什么区别?
如果把 LLM 比作一个**“博学但瘫痪的智者”(大脑),那么 Agent 就是给这个智者装上了“手脚”、配上了“记事本”,并训练了“做事逻辑”**。
它不再满足于陪你聊天,而是要真正替你把事办成。今天,我们就来拆解一下 Agent 的“身体构造”。
一、 什么是 Agent?
Agent = 大脑 (LLM) + 手脚 (Tools) + 记忆 (Memory) + 规划 (Planning)
这是一个在 AI 工程界公认的公式。
- •普通 LLM:你问“今天北京天气怎么样?”,它只能根据训练数据瞎编,或者无奈地告诉你“我不知道实时信息”。
- •Agent:你问同样的问题,它会思考(我需要查天气)→动手(调用天气接口)→回答(告诉你今天是晴天,建议防晒)。
Agent 的核心在于自主性。它是一个能够感知环境、进行推理、并采取行动以实现目标的智能系统。
二、 Agent 的四大核心组件
要造出一个能干活的 Agent,必须集齐以下四块拼图:
1. 大脑:LLM(大语言模型)
这是 Agent 的指挥中心。虽然 Agent 强调行动,但核心的意图理解和逻辑推理依然依赖于 LLM。
- •它的职责:听懂用户的“人话”,将其翻译成机器能执行的指令;在收到执行结果后,再组织语言反馈给用户。
- •它的局限:LLM 本质上是“概率预测机器”。它没有痛觉,也没有真正的意识,它只是在根据上文预测下一个字。因此,单独的 LLM 无法感知实时世界,也无法执行物理操作。
2. 手脚:Tools(工具使用)
这是 Agent 区别于传统 Chatbot 的最显著特征。既然大脑被困在服务器里,那就给它联网,给它 API。
- •工具是什么:它可以是一个搜索引擎(Google/Bing)、一个代码解释器(Python)、一个订票系统的接口,甚至是一个操作 Excel 的插件。
- •如何工作:
- • 当 LLM 意识到“我现在需要计算 12345 * 67890”时,它不会自己硬算(容易出错),而是伸手去调用“计算器工具”。
- • 当 LLM 意识到“用户想买票”时,它会伸手去调用“航旅 API”。
- •价值:工具补齐了 LLM“时效性差”、“逻辑计算弱”、“无法通过网络交互”的三大短板。
3. 记忆:Memory(上下文与存储)
如果一个助理跟你聊两句就忘了你叫什么,你一定想解雇他。对于 Agent 来说,记忆决定了它能否成为你的“专属”助理。
Agent 的记忆分为三层境界:
- •短期记忆(Short-term Memory):
- •原理:基于上下文(Context Window)。
- •作用:保证这一轮对话不因遗忘而“精神分裂”。比如你说“订去成都的票”,下一句说“要明天的”,它得记得“明天的”是指“明天的成都机票”。
- •长期记忆(Long-term Memory):
- •原理:通常使用向量数据库(Vector DB)存储。
- •作用:记住你的偏好。比如你半年前说过“我不吃香菜”或“我出差首选窗边座位”,真正的 Agent 在半年后为你订餐或订票时,会自动应用这些规则。
- •反思记忆(Reflection):
- •作用:这是高阶能力。Agent 会从过去的错误中学习。比如上次它推荐的酒店太远被你骂了,它会“记住”这个教训,下次优先推荐市中心的酒店。
4. 规划:Plan(任务拆解与调度)
这是 Agent 从“玩具”变成“工具”的分水岭。现实世界的问题往往是复杂的,不是调用一次工具就能解决的。
规划能力(Planning)就是让 Agent 像项目经理一样思考:
- 目标理解:用户说“帮我策划一次为期三天的西安之旅”。
- 任务拆解(Decomposition):Agent 必须把这个大目标拆解为子任务:
- •任务 A:查询往返机票。
- •任务 B:筛选评分 4.5 以上的酒店。
- •任务 C:规划每日景点路线。
- •任务 D:计算总预算。
- 依赖排序:它得知道,必须先确定机票时间(任务 A),才能去订酒店(任务 B)。
- 动态调整:如果查到机票太贵超预算了,它需要懂得“回退”一步,重新调整方案,而不是傻傻地继续执行。
三、 总结:从“指路”到“驾驶”
如果我们把完成任务比作“开车去机场”:
- LLM(大模型)就像是一个高精度的“导航地图”。
- 它博学多才,知道世界上每一条路的名字,知道哪里有限速,也能瞬间规划出一条理论上的最优路。
- 但是,它没有手脚,踩不了油门。如果你只盯着地图看,车子一步也不会动。它止步于“告诉你怎么做”。
- Agent(智能体)则是一辆**“自动驾驶汽车”**。
- 它内置了导航地图(LLM),所以它认路。
- 它装配了雷达和摄像头(Tools),能感知红绿灯和行人,并控制方向盘和刹车(执行行动)。
- 它记得你上次说“赶时间,别走拥堵路段”(Memory)。
- 面对突发修路,它能立刻重新计算路线,决定绕行小路(Planning)。
总结来说:LLM 负责“知”,而 Agent 负责“行”。未来的 AI 时代,我们不再需要自己握着方向盘盯着地图,只需要坐在后排说一句:“带我去机场”,剩下的交给 Agent 即可。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。