花莲县网站建设_网站建设公司_虚拟主机_seo优化
2026/1/10 0:04:10 网站建设 项目流程

通过强化学习(RL)训练的大语言模型(LLM)智能体在解决复杂多步骤任务方面展现出巨大潜力。然而,其性能常常受限于上下文爆炸(Context Explosion)问题,其表现为:随着任务复杂度提升,LLM需多次调用外部工具查询,从而产生冗长的工具检索输出。由于现有方法主要将检索结果直接拼接至上下文,这对智能体的上下文管理能力提出极高要求;而当前大模型的有限上下文窗口在处理冗长输入时会限制其推理能力。

为应对这一问题,佐治亚理工学院联合阿里提出一种新颖的分层智能体框架CoDA,通过解耦高层策略规划与底层任务执行,有效缓解了上下文过载问题。研究团队还提出一种端到端的强化学习策略PECO ,能够协同优化规划器与执行器两个角色。在复杂多跳问答基准测试中,CoDA取得SOTA性能,准确率较现有方法最高提升6.0%,充分证明其卓越的推理能力。在长上下文场景中,当所有其他基线方法性能严重下降时,CoDA 仍能保持稳定表现,进一步验证了研究团队的分层设计在缓解上下文过载方面的有效性。

  • 论文标题:

    CoDA: A Context-Decoupled Hierarchical Agent with Reinforcement Learning

  • 论文链接:

    https://arxiv.org/pdf/2512.12716

  • 项目地址:

    https://github.com/liuxuanzhang718/CoDA

01

方法

图1:CoDA框架工作流程示意图。一个共享的模型既作为规划器(左侧)来分解任务,又作为执行器(右侧)在隔离的上下文中处理工具调用。

(1)分层智能体框架CoDA

研究团队的核心洞见在于:克服上下文过载问题需要一个既能从结构上分离高层规划与底层执行、又具备整体可学习性的框架。

受经典“分而治之”原则的启发,研究团队提出了分层智能体框架CoDA(如图1所示)。其核心思想是将单一决策过程分解为两个协同工作但上下文隔离的逻辑角色:规划器(Planner) 和 执行器(Executor)。这两个角色由同一个模型𝜋𝜃实现,但在不同的上下文中运行。

规划器:充当高级策略制定者,在一个简洁的策略上下文 CP 中运行。其职责是生成子任务或最终答案。策略语境保持简洁,仅包含高层信息:

在每个步骤t,规划器会生成下一个子任务

执行器:充当专注的任务处理者,在一个临时执行上下文 CE 中运行。它接收来自规划器的单个任务 taskt,并负责通过工具调用和信息处理来完成该任务。其内部工作流程如下:

①初始化:CE←{taskt}。

②执行:调用工具(如)以检索原始文档

③提炼:对原始文档 Dt进行总结与提炼,生成简洁的信息摘要 st=Refine(Dt)。

④结论:基于CE内提炼后的信息,生成最终的结果 resultt。该结果是对任务 taskt 所获信息的简洁总结,准备返回给规划器。

关键在于,冗长的原始文档 Dt 不会进入规划器的策略上下文CP。执行器充当一个黑盒模块,自动屏蔽掉嘈杂的细节信息,从而实现了有效的上下文解耦。

(2)强化学习策略PECO

研究团队采用基于GRPO算法的结果监督式强化学习方法,对 CoDA 框架进行端到端训练。其核心策略在于:运用单一轨迹级奖励来更新共享策略模型𝜋𝜃,同时确保每个 token 的梯度计算都基于其所属角色(规划器或执行器)所对应的特定上下文。

  • 分层轨迹生成(Rollout)

训练过程首先通过行为策略生成交互轨迹。标准的 rollout 过程如下所示:

①规划器动作:从用户查询开始,规划器生成一系列思考步骤和一个动作,该动作为待委派的 或最终答案 。

②执行器子循环:若规划器生成的是一个 ,则启动一个独立的生成循环。此会话运行于一个临时上下文中,仅用该子任务初始化,从而与规划器的长期历史记录相隔离。在此临时上下文中,模型作为执行器运作,专注于当前子任务:它可以迭代地生成 动作,接收外部工具返回的结果(例如 …),并对这些信息进行推理,直至为该子任务生成一个 。

③返回规划器:执行器生成的最终答案被封装为一个 并返回给规划器,成为规划器策略上下文一部分,供其下一步决策使用。

④轨迹收集:收集所有生成的序列——包括主规划器轨迹及其关联的所有执行器轨迹。将它们拼接成单个训练批次,每条轨迹都会被显式标记为 ‘planner’ 或 ‘executor’,以便进行组级信用分配。这些轨迹的集合代表了单个查询的完整多层次推理过程,构成了一个轨迹组。

  • 组级信用分配

每个查询使用相同的策略生成 k>1 条相互独立的轨迹(称为“rollouts”)。所有源自同一查询的轨迹(包括规划器和执行器的轨迹)构成一个轨迹组 G,为每个轨迹组 G 计算一个标量奖励 R(G)。

遵循GRPO原理,通过将每个组的奖励与其处理相同初始查询的同伴组统计值进行归一化来实现信用分配。若单个查询的𝑘条rollouts对应的奖励集合为,则第𝑖组的优势计算如下:

其中,mean 和 σ 分别表示仅基于该查询对应的 k 个结果计算出的均值和标准差。

该优势值将统一应用于该轨迹组中所有策略生成的 token(包括规划器和执行器轨迹)。这种基于结果的信用分配机制确保了:即使是执行器在中间步骤所采取的动作,其价值也能根据其对规划器最终成功所作的贡献而被合理评估。

  • 基于损失掩码的上下文依赖策略更新

训练策略的核心原则是确保模型仅从自身的动作中学习,而不是从环境提供的观察中学习。尽管优势信号是统一的,但策略更新是以逐个 token 的方式进行的,并通过损失掩码(loss masking)严格实施这一原则。

采用GRPO的目标函数来更新策略,以对比行为策略。对于轨迹组中由生成的每个 token,其损失函数为:

其中,是重要性采样比率。

策略的整体学习目标是最大化 GRPO 的替代目标函数 J(θ),并通过一个 KL 散度正则项来约束其与参考策略的差异。

其中,掩码 mt 是实现动作-观察分离的关键组件。在轨迹构建过程中,研究团队的框架能够区分由智能体生成的 token 和由环境返回的 token。损失仅在智能体生成的 token 上计算,应用一个二元损失掩码 mt实现:

①智能体的动作(mt=1):这些 token 是智能体在其决策过程中生成的,包括规划器的推理过程和 生成,以及执行器的推理和 生成。

②环境观察(mt=0):这些 token 表示来自环境的信息。对规划器而言, … 块中的输出是观察;对执行器而言, … 块中的搜索结果也属于观察。

  • 复合奖励设计

为了引导模型掌握CoDA框架所需的复杂行为,研究团队设计了一种复合奖励函数 R(G),该函数同时激励三个不同的目标:答案正确性、结构合规性和信息提炼质量。完整轨迹组 G 的总奖励为这三项的加权和:

①答案正确性(Rans):主要目标是生成一个事实正确的答案。该奖励基于规划器生成的最终答案 Apred 与真实答案集G之间的 F1 分数。将该分数线性变换至 [−3,3] 范围内,以提供强效且标准化的奖励信号。

② 格式合规性(Rformat):为了确保智能体遵循先规划后执行的原则,对其生成正确格式的XML风格标签的行为给予奖励。该奖励由两部分组成,分别对应规划器与执行器。

其中,IP(G) 是一个指示函数,当该轨迹组中规划器的最终输出在结构上正确时(即正确使用了 或 标签)取值为 1。类似地,IE(G) 是另一个指示函数,当该轨迹组中所有执行器的输出都格式正确时(即正确使用了 或 标签)取值为 1。

③提炼质量(Rrefine)

执行器的一项关键能力是从嘈杂的搜索结果中提炼出关键信息。为了激励总结行为及其事实准确性,提炼奖励需要满足两个条件:1)生成非空总结;2)该总结包含真实答案。

令 srefine(τe) 表示在一个轨迹组 G 中所有执行器轨迹的 标签内提取出的所有字符串内容集合。首先将这些内容拼接成单一字符串 scombined:

其中,⊕ 表示字符串连接运算符。提炼奖励的形式化定义如下:

其中,I(⋅) 是指示函数;条件 G⊆scombined 检查合并后的提炼字符串中是否至少包含来自真实答案集合 G 中的一个真实答案,δ 是对应的权重系数。这种方法奖励执行器分步提炼的累积成果,即使关键信息分布在多个提炼步骤中。

02

评估

如表1所示,在七个不同问答基准测试上,CoDA-Base展现出SOTA性能,在所有数据集上取得了 0.407 的最高平均分

CoDA框架的优势体现在复杂的多跳问答场景(HotpotQA、2WikiMultiHopQA、Musique、Bamboogle)。在这些高难度基准测试中,CoDA 始终以显著优势超越所有基线方法,最显著的提升在2WikiMultiHopQA 和 Musique 这两个需要在多个文档之间进行复杂的推理。CoDA相较于强大的AutoRefine基线方法,在2WikiMultiHopQA上实现了高达24%的性能提升,在Musique上也提升了10%。

为评估CoDA框架在面对“上下文爆炸”的稳健性,研究团队进行了一项模拟信息过载的鲁棒性测试。通过调整搜索工具的 top-k 参数(从 3 到 30)增加相关信息的数量,每次返回 200 个token的文档片段(每次调用最多达 4K–6K token)。

图4a展示了CoDA卓越的鲁棒性。其中,AutoRefine基线的性能随着检索文档数量的增加而持续地下降:其 F1 分数从 0.49 降至 0.24,相对下降达 52%,凸显了其在信息过载面前的脆弱性。而CoDA的性能在所有 k 值下均表现出极强的稳定性。这种鲁棒性直接源于上下文解耦设计:由于其工作空间是临时的,且输出为高度凝练的摘要,信息过载问题在底层即被有效隔离和解决,从而避免了对关键的高层规划过程造成干扰。

在多跳问答任务中,上下文过载问题尤为严峻,来自多个顺序检索步骤的信息会累积并放大噪声。研究团队在2WikiMultiHopQA 和 Musique 中人工筛选出的 3,916 个需要超过3个推理跳数的问题上,对 CoDA 进行了评估。如表 4 所示,CoDA显著优于 AutoRefine,在两个多跳数据集(3–4 跳)上分别实现了EM 平均相对提升 +21.48%,F1提升+19.60%,CEM提升 +23.02%,从而验证了分层架构在处理复杂多跳问题上的有效性。

图 4b 显示,以 AutoRefine 为代表的单智能体方法性能急剧下降,其原因在于每跳检索返回的原始文档不断污染其上下文。相比之下,CoDA 展现出卓越的鲁棒性。其模块化架构有效地将含噪声的长上下文信息隔离在执行器的临时工作空间内,执行器在独立的工作空间中处理原始文档,并仅输出简洁的摘要;而规划器则始终保持一个干净、高层的策略性上下文。这种解耦机制有效防止了信息稀释并保障了推理质量。因此,即使在多跳推理叠加大量上下文的极端挑战下CoDA 依然维持稳定且强劲的性能,清晰地展现出其架构在复杂、长上下文、多跳场景中的优势

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询