ReAct是一种将推理(Reasoning)与行动(Acting)结合的AI范式,让大模型交替生成思考(Thought)和行动(Action)。它解决了纯推理模型(CoT)的幻觉问题和纯行动模型缺乏高层规划的缺陷。ReAct通过协同推理与行动,提高了解决复杂任务的能力,增强了模型的可解释性和可控性。实验表明,ReAct在知识密集型任务和决策制定任务中表现优异,且通过微调可显著提升小模型性能。这一范式对构建智能AI体具有重要启示价值。
这篇论文来自最近 AI 圈的风云人物姚顺雨,它系统性地提出了将 Reasoning 与 Acting 结合的范式,也就是我们现在熟知的 ReAct 模式。
论文:REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
作者提出了一种基于 Prompt 的范式,让 LLM 在解决任务时交替生成 Reasoning Traces 和Task-specific Actions,从而解决了 CoT 缺乏外部反馈以及传统决策模型缺乏更高层规划的问题。
1. 背景介绍
在 ReAct 提出之前,LLM 的应用主要分为两个大方向。
推理(Reasoning):例如 Chain-of-Thought (CoT),模型利用内部知识进行多步推理。
缺点:这是一个静态的黑盒过程,模型容易产生幻觉,且无法获取外部世界的实时信息(例如“现在的美国总统是谁”)。
行动(Acting): 模型根据观察(Observation)直接输出动作(Action),常见于 RL 或 WebGPT 等通过 API 交互的场景。
缺点:缺乏高层的语义规划。如果任务很复杂,模型很容易迷失在局部的状态中,不知道下一步该干什么。
人类的认知过程:论文用人类做饭举例——我们在做动作(切菜)之间,会有内心独白(“菜切好了,该烧水了”或“哎呀没盐了,得找盐”)。这种Reasoning(指导行动、处理异常)与Acting(与环境交互获取信息)的紧密协同,才是解决复杂问题的关键。
2. ReAct 方法论
2.1 形式化定义
在这个框架下,我们将解决问题的 Agent 视为与环境交互的过程。 在时间步 ,Agent 接收到来自环境的观察 ,并根据当前的上下文 采取行动。
传统策略通常是学习一个映射 ,其中 是外部动作空间(如search[query], click[button])。
ReAct 的核心创新在于扩充了动作空间:,其中 是语言空间。
Thought: 。这是一个内部动作,不会影响外部环境,因此没有对应的观察反馈。它的作用是更新上下文 ,帮助 Agent 整理思路、分解目标或提取关键信息。
Action:。这是外部动作,执行后环境会返回新的观察 。
2.2 具体实现
ReAct 主要通过 In-context Learning (Few-shot Prompting) 来实现,利用冻结参数的 LLM(论文中使用了 PaLM-540B,对比实验用了 GPT-3)。
Prompt 的构建非常直观:包含若干个人类编写的(Thought, Action, Observation)轨迹示例。
- 对于推理密集型任务(如 QA): 采用交替结构
Thought -> Action -> Observation -> Thought ...。 - 对于决策密集型任务(如玩游戏): Thought 不需要每一步都出现,可以让模型自主决定何时进行 Thought,实现稀疏推理。
3. 实验与结果分析
论文在两类不同的任务上进行了评估:知识密集型推理和交互式决策。
3.1 知识密集型任务
这类任务要求模型回答多跳问题或验证事实。ReAct 被允许调用一个简单的 Wikipedia API(只有 Search, Lookup, Finish 三个动作)。
对比基线:
- Standard (标准 Prompt)
- CoT (思维链,纯推理)
- Act-only (纯行动,无 Thought)
- ReAct (本文方法)
主要发现:
- 幻觉问题:CoT 的主要失败模式是事实幻觉。因为它只能依靠内部参数记忆,无法访问外部数据。
- 结构限制:ReAct 的主要失败模式是推理错误。因为 ReAct 被强制要求与外部环境交互,有时这种结构约束会打断模型的推理流畅性。
- 最佳策略 (ReAct + CoT-SC):论文提出了一种结合策略。由于 ReAct 擅长根据事实行动,而 CoT 擅长逻辑结构,因此可以让两者互补:
- Heuristic A:先试 ReAct,如果失败(没找到答案),退回到 Self-Consistency。
- Heuristic B:先试 CoT-SC,如果多个采样答案分歧大(模型不自信),则启用 ReAct 查证。
- 结果: 这种组合在 HotpotQA 和 FEVER 上都取得了最佳性能。
3.2 决策制定任务
ALFWorld:基于文本的家庭环境模拟游戏(如“去客厅把所有灯关了”)。
- ReAct 的表现远超 Act-only(成功率 71% vs 45%)。
- 关键点:在 Act-only 中,模型经常在长时间跨度任务中忘记“通过子目标 A 之后该干什么”,或者一旦失败就陷入死循环。ReAct 通过 Thought 显式地记录了状态(“我现在拿着钥匙,下一步该去找锁”)。
WebShop:模拟电商购物网站,需浏览网页并根据指令购买商品。
- ReAct 能够处理极其模糊的指令与具体商品选项之间的 Gap。
- 例子:用户要“适合户外的保护套”,ReAct 会推理出“这意味着我需要找材质耐用的、防水的选项”。
3.3 微调的潜力
论文还探索了微调。
- Prompting:在大模型(540B)上 ReAct 效果好,但在小模型上较难。
- Fine-tuning:使用 ReAct 生成的成功轨迹(包含 Thought)去微调较小的模型(PaLM-8B/62B)。
- 结论:微调后的 ReAct 效果显著优于微调后的 CoT 或 Standard。
微调 CoT 本质上是在教模型“背诵”知识(容易过时/幻觉),而微调 ReAct 是在教模型一种“如何寻找信息并推理”的能力。
4. 重看 ReACT,新的思考
4.1 为什么 ReAct 有效?
- Synergy(协同):Reasoning 指导 Action 的方向(减少无效搜索),Action 为 Reasoning 提供最新的事实依据(Grounding)。
- Interpretability(可解释性):通过观察 Thought,我们可以清楚地知道模型为什么执行这个动作。
- Controllability(可控性):论文展示了一个有趣的 Human-in-the-loop 实验。当 Agent 走偏时,人类只需要修改其中的一句 Thought,Agent 就能自我修正后续的 Action,而不需要去调参数或重写大量 Prompt。
4.2 局限性
- Context 长度: ReAct 会生成大量的 Thought 和 Observation,这会迅速消耗 LLM 的上下文窗口。
- 推理错误: 相比于纯 CoT,ReAct 在推理的灵活性上受到限制,有时会陷入“搜索-无果-重复搜索”的死循环。
- 依赖 Prompt 质量: ReAct 的性能高度依赖于 Few-shot 示例的质量(即 Prompt Engineering)。
5. 总结
ReAct 是 LLM 向 AGI 迈进的重要一步。它打破了 LLM 仅作为“知识库”或“聊天机器人”的限制,将其转化为能够主动感知、规划并改变环境的 Agent。
对我们现在工作的启示:
- 如果你正在构建 Agent,显式的 Reasoning Step (Thought) 是必不可少的,不要指望模型能直接从 Input 映射到复杂的 API Call。
- 对于私有数据或实时信息场景,ReAct 范式(让模型自己去 Search/Lookup)比单纯的 RAG(预检索)更灵活,因为模型可以根据反馈自我修正检索策略。
- 微调 Agent 时,不仅要把最终答案放进训练数据,更要把中间的 Thought-Action 轨迹放进去。
其他
论文附录中有大量的 Prompt 示例(ALFWorld, WebShop 等),对于实际开发 Agent 的 Prompt Engineering 非常有参考价值。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。