经过这一番调教,你的 AI 已经变得博学且严谨。
但很快,作为AI应用开发的你,会触碰到一个新的天花板:
无论这个 AI 多么聪明,它始终是一个轮椅上的天才。
•你问它:“今天杭州天气怎么样?”它回答:“抱歉,我的数据截止到 2023 年。”
•你让它:“帮我算一下这三个 Excel 表格的总和。”它可能会一本正经地胡编一个数字,因为它不擅长数学计算。
•你让它:“帮我把这个文件发给老板。”它只能无奈地说:“我只是一个语言模型,我无法操作你的微信。”
它只能“说”,不能“做”。它被困在了对话框里,与现实世界隔绝。
如何打破这个边界?如何让 AI 走出“思维的宫殿”,真正去接触现实世界?
今天,我们要揭秘大模型领域最激动人心、也是从 Chatbot 进化为 Agent(智能体)的核心机制:ReAct。
01 什么是 ReAct?像侦探一样思考
ReAct 这个词,是Reasoning(推理)和Acting(行动)的缩写。
如果说CoT(思维链)是让 AI 学会“三思而后行”,那么ReAct就是让 AI 学会一边思考,一边干活。
这听起来很抽象?我们用一个生活中的例子来打比方。
想象一下,你就是福尔摩斯。
当你接到一个案子(用户问题)时,你不会坐在椅子上干想(纯 LLM 生成),你也不会像无头苍蝇一样到处乱撞(纯脚本执行)。
你的工作流是这样的:
1思考(Reasoning):“死者手里攥着一张车票,我应该去查查这张车票的来源。”
2行动(Acting):拿起电话,打给火车站(使用工具)。
3观察(Observation):电话那头说,车票是今早 8 点发出的。
4再思考(Reasoning):“8 点?那时死者应该在家里。说明有人撒谎了。我得去查查监控。”
5再行动(Acting):调取监控录像(使用工具)。
…
这就是 ReAct。
它打破了“输入 -> 输出”的一波流模式,把解决问题的过程变成了一个思考 -> 行动 -> 观察 -> 再思考的循环。
02 一张图看懂:从“单行道”到“死循环”
很多朋友觉得 ReAct 的原理好懂,但具体运行逻辑很模糊。
为了彻底讲透,我画了两张图。
以前的模式(Chatbot):
这是一个线性的单行道。你问什么,它答什么。如果它不知道(比如实时股价),它就只能瞎编。
纯记忆检索
用户输入: Query
LLM 大模型
输出结果: Response
ReAct 的模式(Agent):
这是一个动态的闭环。当模型发现自己无法直接回答时,它会发起请求,系统执行完把结果喂回给模型,让它继续想。
这个过程,就像是一个程序的while循环:
ReAct 核心循环
我不掌握实时股价, 需调用搜索工具
输出指令: Search_Stock
返回结果: $175
将结果拼接到上下文
信息已足够
用户输入: 帮我查下苹果现在的股价
Thought 1: 思考
Action 1: 决定调用工具
System: 执行工具
Observation 1: 观察结果
Thought 2: 再次思考
Final Answer: 最终回答
看明白了吗?
AI 不再是用“记忆”回答问题,而是学会了使用工具去寻找答案。
当用户问:“对比一下京东和亚马逊上 iPhone 15 的价格。”
AI 的内心戏(Log)会变成这样:
Thought 1:用户想比价。我需要先查京东的价格。
Action 1:调用工具Search_JD("iPhone 15")
Observation 1:结果:5999 元。Thought 2:知道了京东的,我现在需要查亚马逊的。
Action 2:调用工具Search_Amazon("iPhone 15")
Observation 2:结果:6100 元。Thought 3:5999 < 6100。结论是京东更便宜。
Final Answer:建议您在京东购买,便宜 101 元。
03 产品经理的新视角:定义“工具箱”
在理解了 ReAct,你对 AI 产品的规划逻辑就会发生质的飞跃。
以前我们做Chatbot,核心是优化“文本生成”。
现在我们做Agent,核心是定义工具箱(Tools)。
你不再需要逼着模型去背诵企业库存(RAG 也做不到实时更新),你需要做的是给 AI 装上手。
•场景:企业财务助手。
•传统做法:把报表喂给 AI,问它“上季度亏了多少”。AI 经常算错数,因为大模型不擅长加减乘除。
•ReAct 做法:给 AI 两个工具——get_data(季度)和calculator()。
AI 会自己调数据,自己用计算器算差值,准确率 100%。
ReAct 的本质,是把大模型的“通识推理能力”和传统软件的“精准执行能力”结合了起来。
04 挑战与未来:让思考“隐形”
当然,ReAct 也有代价。
1慢:以前一次对话消耗一次 Token。现在一个问题可能要在后台循环思考、调用工具 5、6 次,响应速度会变慢。
2贵:思考步骤多了,Token 消耗自然翻倍。
3死循环:有时候 AI 会陷入“思考怪圈”,反复调用同一个工具查不出结果。
所以,优秀的产品经理和工程师需要在这个环节做大量的优化。
而最重要的一点,依然是我们之前强调的:用户体验的封装。
用户不需要看到侦探是怎么查案的(那些繁琐的 Thought/Action/Observation),用户只需要看到破案的结果。
我们要把这些复杂的循环过程,隐藏在进度条或简单的 Loading 动画后面。
写在最后
如果说RAG是给了 AI 一本“百科全书”;
如果说CoT是给了 AI 一套“逻辑教材”;
那么ReAct就是给了 AI 一套“瑞士军刀”。
至此,我们的 AI 终于从一个“在那儿说空话”的文科生,进化成了一个“能动手解决问题”的理科实干家。
这就是Agent(智能体)的雏形。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。