北海市网站建设_网站建设公司_页面权重_seo优化
2025/12/23 20:21:54 网站建设 项目流程

智能体强化学习(Agentic Reinforcement Learning,Agentic RL)的兴起标志着相较于传统应用于大语言模型的强化学习(LLM RL)的一次范式转变。该转变将大语言模型从被动的序列生成器,重新塑造成嵌入于复杂、动态世界中的自主决策智能体。本文通过对比 LLM-RL 中退化的单步马尔可夫决策过程(Markov Decision Process,MDP)与刻画 Agentic RL 的时间扩展型部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP),对这一概念性转变进行了形式化阐述。

在此基础上,我们提出了一套全面的双重分类体系:其一围绕智能体的核心能力展开,包括规划、工具使用、记忆、推理、自我改进与感知;其二则依据这些能力在多样化任务领域中的应用进行组织。本文的核心论点在于,强化学习是将上述能力从静态、启发式的功能模块转化为自适应、鲁棒的智能体行为的关键机制。

为支持并加速未来研究,我们系统整合了当前开放源代码环境、基准测试与研究框架,形成了一份具有实践价值的资源汇编。通过综合分析五百余篇近期研究工作,本文勾勒出这一快速演进领域的整体轮廓,并揭示了将塑造可扩展、通用型人工智能智能体发展的机遇与挑战。

1 引言

大语言模型(Large Language Models,LLMs)与强化学习(Reinforcement Learning,RL)的快速融合,引发了语言模型在概念建模、训练范式与实际部署方式上的根本性变革。早期的 LLM-RL 范式主要将大语言模型视为静态的条件生成器,通过优化单轮输出以对齐人类偏好或提升基准测试成绩。尽管此类方法在对齐(alignment)与指令跟随方面取得了显著成功,但它们忽视了现实交互场景中所固有的、更广泛的序列决策问题

这些局限性促使研究视角发生转变:近期工作不再将 LLM 视为被动的文本生成器,而是 increasingly 将其建模为智能体(Agents)——即能够在部分可观测、动态环境中,跨越较长时间尺度进行感知、推理、规划、工具调用、记忆维护以及策略自适应的自主决策主体。我们将这一新兴范式定义为智能体强化学习(Agentic Reinforcement Learning,Agentic RL)

为更加清晰地区分本文所研究的 Agentic RL 与传统强化学习范式,我们给出如下定义:

智能体强化学习(Agentic RL)是指一种范式:在该范式中,大语言模型不再被视为为单轮输出对齐或基准性能而优化的静态条件生成器,而是被概念化为嵌入于序列决策闭环中的可学习策略。强化学习赋予其规划、推理、工具使用、记忆维护与自我反思等自主智能体能力,从而使其能够在部分可观测、动态环境中涌现出长时程的认知与交互行为

在第 2 节中,我们将基于形式化符号,对 Agentic RL 与传统 RL 之间的区别进行更加严格的刻画。


相关研究脉络

与 Agentic RL 相关的既有研究大体可划分为两条相互补充的研究主线:RL 与 LLM 的协同研究,以及LLM 智能体

RL 与 LLM 的协同(Synergy between RL and LLMs)

第二条研究主线关注强化学习算法如何被用于提升或对齐大语言模型。其中,一项主要方向是用于训练 LLM 的强化学习(RL for training LLMs),该方向采用在策略方法(如近端策略优化 PPO(Schulman et al., 2017)与群体相对策略优化 GRPO(Shao et al., 2024b))以及离策略方法(如 actor–critic、Q-learning(Mnih et al., 2013)),以增强模型在指令跟随、伦理对齐与代码生成等方面的能力(Srivastava & Aggarwal, 2025;Wang et al., 2025m;2024c)。

互补的研究方向是用于强化学习的 LLM(LLMs for RL),该方向探讨将 LLM 部署为规划器、奖励设计器、目标生成器或信息处理模块,以提升控制环境中的样本效率、泛化能力与多任务规划能力,其系统性分类可参见 Cao et al. (2025c)。

此外,RL 已被广泛融入 LLM 的整个生命周期:从数据生成(Guo et al., 2025b;Wan et al., 2025a)、预训练(Dong et al., 2025a),到后训练与推理阶段(Chow et al., 2025),相关综述可参见 Guo & Wang (2025)。其中最具代表性的方向是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)(Christiano et al., 2017),以及其扩展形式,如基于 AI 反馈的强化学习(RLAIF)(Bai et al., 2022)和直接偏好优化(DPO)(Rafailov et al., 2023)(Wang et al., 2024j;Xiao et al., 2024;Liu et al., 2025k;Srivastava & Aggarwal, 2025)。

LLM 智能体(LLM Agents)

基于 LLM 的智能体代表了一种新兴范式,在该范式中,LLM 作为自主或半自主的决策实体(Wang et al., 2025d;Li et al., 2025r),能够围绕复杂目标进行推理、规划与行动执行。近期多项综述从不同视角对该研究版图进行了系统梳理。

例如,Luo et al. (2025a) 提出了以方法论为中心的分类体系,关联了架构基础、协作机制与演化路径;Plaat et al. (2025) 则强调推理、行动与交互是智能体型 LLM 的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的关键范式,已在 Li (2025) 中得到系统讨论,并由 Wang et al. (2024k) 进行了进一步的概念化。

规划与推理策略构成另一支柱性方向,Masterman et al. (2024) 与 Kumar et al. (2025) 等综述总结了诸如“规划–执行–反思”循环等常见设计模式;Tao et al. (2024) 则将该框架拓展至自演化(self-evolution),使智能体能够在较少人类干预的情况下迭代式地改进知识与策略。其他研究方向还涵盖协作式、跨模态与具身化场景,包括多智能体系统(Aratchige & Ilmini, 2025)、多模态融合(Durante et al., 2024),以及融合记忆与感知的类脑架构(Liu et al., 2025a)。


研究空白与本文贡献

近期关于 LLM 智能体与 RL 增强型 LLM 的研究激增,体现了两种互补视角:一类关注大语言模型作为自主智能体核心所能实现的能力,另一类则聚焦强化学习如何优化其行为。然而,尽管相关工作数量庞大,一种将 LLM 明确建模为嵌入于序列决策过程中的策略优化智能体的统一 Agentic RL 框架仍然缺失

现有研究往往聚焦于孤立的能力、特定任务领域或定制化环境,且术语使用与评测协议不统一,使得系统性比较与跨领域泛化面临困难。为弥合这一鸿沟,本文提出了一种连贯的综合性视角,将理论基础、算法方法与实际系统紧密连接。

具体而言,我们通过马尔可夫决策过程(MDP)与部分可观测马尔可夫决策过程(POMDP)抽象,对 Agentic RL 进行形式化建模,以区分其与经典 LLM-RL 范式的本质差异;并提出一种以能力为中心的分类体系,将规划、工具使用、记忆、推理、反思(自我改进)与交互等视为可由 RL 优化的核心组件。此外,我们系统整理了支持智能体型 LLM 训练与评测的代表性任务、环境、框架与基准,并在文末讨论了开放挑战与面向可扩展、通用型智能体智能的未来研究方向。

总体而言,本文旨在进一步明确本综述的研究范围:

主要关注:
✔ 强化学习如何在动态环境中赋能基于 LLM 的智能体(或具备智能体特征的 LLM)

不在讨论范围之内(但可能偶有提及):
✗ 面向人类价值对齐的 RL(如用于有害请求拒绝的 RL);
✗ 非基于 LLM 的传统强化学习算法(如 MARL(Huh & Mohapatra, 2024));
✗ 仅用于提升静态基准测试性能的 RL 方法。


文章结构

本文的组织结构旨在从概念基础逐步构建对 Agentic RL 的统一理解,并延伸至实际系统实现。第 2 节从 MDP/POMDP 视角形式化刻画向 Agentic RL 的范式转变;第 3 节从能力维度分析 Agentic RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第 4 节探讨其在搜索、GUI 操作、代码生成、数学推理与多智能体系统等领域的应用;第 5 节整合支撑实验与基准评测的开源环境与强化学习框架;第 6 节讨论开放挑战与未来研究方向;第 7 节对全文进行总结。整体结构如图 1 所示。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询