漯河市网站建设_网站建设公司_移动端适配_seo优化
2026/1/8 21:39:50 网站建设 项目流程

Anthropic介绍了Claude Research功能的多智能体系统架构,由主导智能体协调多个并行子智能体完成复杂研究任务。该系统在开放式问题处理上表现优异,性能较单智能体提升90.2%。文章详细阐述了系统架构、执行流程、提示工程原则、评测方法及生产环境中的挑战,为构建可靠高效的多智能体AI系统提供了宝贵经验。

我们的 Research 功能使用多个 Claude 智能体,更高效地探索复杂问题。本文将分享我们在构建该系统过程中遇到的工程挑战,以及从中获得的经验教训。

Claude 现在具备了Research(研究)能力,可以搜索整个互联网、Google Workspace 以及各类集成工具,从而完成复杂任务。

这个多智能体系统从原型走向生产的过程,让我们在系统架构、工具设计以及提示工程方面学到了许多关键经验。所谓多智能体系统,是指由多个智能体(LLM 在循环中自主使用工具)协同工作的系统。

我们的 Research 功能中包含一个主导智能体(lead agent),它会基于用户的问题规划研究流程,并通过工具创建多个并行工作的子智能体,同时搜索信息。多智能体系统带来了新的挑战,包括智能体之间的协作、评估方式以及系统可靠性问题。

本文将系统性拆解那些在实践中行之有效的原则,希望能为你在构建自己的多智能体系统时提供参考。

多智能体系统的优势

研究类工作往往是开放式问题,很难提前预测所需的具体步骤。你无法为复杂问题预先硬编码一条固定的探索路径,因为研究过程本质上是动态的、路径依赖的。

当人类进行研究时,通常会根据过程中不断出现的新发现持续调整策略,顺着调查中浮现的线索前进。

这种不确定性恰恰使 AI 智能体非常适合研究任务。研究要求具备在探索过程中随时转向、深入旁支路径的能力。模型必须能够在多个回合中保持自主运行,根据中间结果判断下一步该往哪个方向走。

线性的、一次性生成的流水线无法胜任这类任务。

搜索的本质是压缩:从海量信息中提炼出关键洞见。子智能体通过并行工作、各自拥有独立上下文窗口,来完成这种压缩——它们会分别探索问题的不同侧面,然后将最重要的信息浓缩后交给主研究智能体。

每个子智能体也起到了“关注点分离”的作用:它们拥有不同的工具、不同的提示、不同的探索轨迹,从而减少路径依赖,提高调查的全面性和独立性。

一旦智能水平达到一定阈值,多智能体系统就会成为扩展能力的关键方式。举例来说,尽管在过去十万年里,单个人类的智力提升有限,但在信息时代,人类社会整体能力却呈指数级增长,其根本原因在于集体智能与协作能力

即便是通用智能体,作为个体也存在明显上限;而一群协同工作的智能体,能够完成的事情要多得多。

我们的内部评测显示,多智能体研究系统在广度优先(breadth-first)查询上表现尤为突出,这类问题往往需要同时沿着多个相互独立的方向进行探索。

我们发现:使用Claude Opus 4作为主智能体、Claude Sonnet 4作为子智能体的多智能体系统,在内部研究评测中,相比单一的 Claude Opus 4,性能提升了90.2%

例如,在“找出信息技术行业 S&P 500 公司所有董事会成员”这一任务中,多智能体系统能够将问题拆解为多个子任务并交由子智能体并行完成,而单智能体系统由于搜索过程缓慢且串行,最终未能得到正确答案。

为什么多智能体系统能奏效

多智能体系统之所以有效,核心原因在于:它们能够为解决问题投入足够多的 token

在我们的分析中,三项因素解释了BrowseComp评测(用于测试浏览型智能体定位高难度信息能力)中95% 的性能差异

    1. token 使用量(单独就解释了 80%)
    1. 工具调用次数
    1. 模型选择

这一发现验证了我们的架构选择:通过让多个智能体各自拥有独立上下文窗口,将任务分布到并行智能体中,从而获得更大的并行推理容量。

最新的 Claude 模型在 token 使用效率上起到了巨大的放大作用——将模型从 Claude Sonnet 3.7 升级到 Claude Sonnet 4,带来的性能提升,甚至超过了将 token 预算翻倍。

多智能体架构本质上是在为超出单一上下文窗口能力的任务扩展 token 使用规模。

当然,这也有明显的代价。

在实际运行中,多智能体系统会非常快地消耗 token。我们的数据显示:

  • • 单个智能体通常消耗的 token 约为普通聊天的4 倍
  • • 多智能体系统整体消耗的 token 约为聊天的15 倍

因此,从经济可行性的角度来看,多智能体系统只适合用于任务价值足以覆盖成本的场景

此外,并非所有任务都适合多智能体系统。那些要求所有智能体共享同一上下文、或存在大量强依赖关系的任务,目前并不理想。例如,大多数编码任务真正可并行化的部分有限,而 LLM 智能体在实时协调和任务委派方面仍然不够成熟。

我们的经验是:多智能体系统在以下场景中表现最佳:

  • • 任务具备高度并行性
  • • 所需信息明显超出单一上下文窗口
  • • 需要与大量复杂工具进行交互

Research 的系统架构概览

我们的 Research 系统采用了一种多智能体架构,整体遵循orchestrator–worker(编排者–执行者)模式
由一个主导智能体负责整体协调,并将任务委派给多个并行运行的专用子智能体。

当用户提交查询后,主导智能体会首先对问题进行分析,制定研究策略,然后同时生成多个子智能体,让它们分别探索问题的不同方面。

如上图所示,子智能体在系统中扮演的是智能过滤器的角色:
它们会反复使用搜索工具收集信息(图中示例是 2025 年的 AI 智能体公司),并将整理后的公司列表返回给主导智能体,由后者汇总并生成最终答案。

与传统 RAG 的核心区别

传统的检索增强生成(RAG)方法依赖于静态检索
系统会从语料库中取出一组与输入问题最相似的文本片段,然后基于这些片段生成回答。

而我们的 Research 架构采用的是多步骤、动态搜索流程,其特点包括:

  • • 会根据中途发现不断调整搜索方向
  • • 能动态发现真正相关的信息
  • • 对搜索结果进行分析、筛选与综合
  • • 最终形成高质量、结构化的答案

这使得系统在复杂、开放式研究问题上明显优于静态 RAG。

多智能体 Research 的完整执行流程

当用户提交查询后,系统会创建一个LeadResearcher(主研究智能体),并进入一个迭代式研究循环

    1. 主研究智能体首先进行整体规划
  • • 思考研究策略
  • • 将研究计划写入 Memory(外部记忆)
  • • 这样做是因为当上下文窗口超过200,000 tokens时,早期内容会被截断,而研究计划必须被长期保留
    1. 创建多个专用 Subagent(子智能体)
  • • 图中示例展示了 2 个子智能体,但实际数量可变
  • • 每个子智能体都有明确的研究任务
    1. 子智能体独立执行研究
  • • 通过 Web 搜索等工具获取信息
  • • 使用交错思考(interleaved thinking)在工具调用结果之间进行反思与调整
  • • 评估结果质量、发现信息缺口、优化下一轮搜索
    1. 主研究智能体综合子智能体结果
  • • 判断信息是否充分
  • • 若不足,可继续生成新的子智能体,或调整整体策略
    1. 进入引用处理阶段(CitationAgent)
  • • 当信息收集完成后
  • • 系统会将研究报告和相关文档交给 CitationAgent
  • • 该智能体会定位每一条具体论断所对应的原始来源位置
  • • 确保所有结论都具备可追溯、可验证的引用
    1. 返回最终结果
  • • 用户获得一份带完整引用的研究结果

这一流程确保了 Research 输出不仅内容全面,而且来源清晰、证据可查

研究智能体的提示工程与评测

多智能体系统与单智能体系统存在显著差异,其中一个核心区别是:协作复杂度会迅速增长

在早期版本中,我们的智能体经常出现以下错误行为:

  • • 为一个简单问题生成50 个子智能体
  • • 为根本不存在的资料在网上无休止地搜索
  • • 子智能体之间频繁互相“打扰”,发送大量无价值的更新信息

由于每一个智能体的行为都由提示(prompt)驱动,提示工程成为我们改善这些问题的最主要杠杆。下面是我们在实践中总结出的若干关键提示原则。

1. 像你的智能体一样思考

要想不断优化提示,你必须真正理解提示对智能体行为的影响。

为此,我们使用Anthropic Console构建了高度贴近真实系统的模拟环境,复现了线上所使用的完整提示与工具配置,并逐步观察智能体的执行过程。

这种方式可以非常直观地暴露失败模式,例如:

  • • 智能体在已经获得充分信息后仍然继续执行
  • • 使用过于冗长、过度具体的搜索查询
  • • 选择了不合适的工具

高质量的提示工程,依赖于你是否建立了一个准确的“智能体心理模型”。一旦你真正理解智能体是如何理解指令的,最有效的改进往往会变得显而易见。

2. 教会“编排者”如何正确委派任务

在我们的系统中,主导智能体负责将用户问题拆解为子任务,并将这些任务描述给子智能体。

每一个子智能体都需要清晰地获得以下信息:

  • • 明确的目标
  • • 期望的输出格式
  • • 推荐使用的工具和信息来源
  • • 清楚的任务边界

如果任务描述不够具体,常见的问题包括:

  • • 多个子智能体重复做同一件事
  • • 某些关键方向完全无人探索
  • • 子智能体无法找到必要信息

在系统早期,我们允许主导智能体给出非常简短的指令,例如:“研究半导体短缺问题”。但我们很快发现,这类指令过于模糊,导致子智能体对任务产生不同理解,甚至执行完全相同的搜索。

例如,在一次任务中:

  • • 一个子智能体研究的是2021 年汽车芯片危机
  • • 另外两个子智能体则重复研究2025 年当前供应链状况

但整个过程中并没有形成有效的分工。

3. 根据问题复杂度动态调整投入规模

智能体本身并不擅长判断一个任务应该投入多少资源,因此我们在提示中加入了明确的规模控制规则

  • 简单事实查询
  • • 使用 1 个智能体
  • • 进行 3–10 次工具调用
  • 直接对比类问题
  • • 使用 2–4 个子智能体
  • • 每个子智能体进行 10–15 次工具调用
  • 复杂研究任务
  • • 使用 10 个以上子智能体
  • • 每个子智能体拥有清晰、互不重叠的职责

这些明确的指导规则,帮助主导智能体更合理地分配资源,也避免了在简单问题上“过度用力”——这是我们早期系统中最常见的失败模式之一。

4. 工具设计与工具选择至关重要

智能体–工具接口的重要性,不亚于人机交互界面(HCI)

在很多情况下,是否使用正确的工具不仅影响效率,甚至决定任务能否完成。例如,如果某些上下文只存在于 Slack 中,而智能体却一直在网上搜索,那么从一开始就注定失败。

随着MCP(Model Context Protocol)服务器的引入,模型可以访问大量外部工具,而问题反而被放大了:
智能体可能会遇到描述质量参差不齐、用途不明确的新工具。

为此,我们在提示中为智能体加入了明确的工具选择启发式规则,例如:

  • • 先检查所有可用工具,再决定使用哪一个
  • • 将工具选择与用户意图进行匹配
  • • 广泛外部探索时优先使用 Web 搜索
  • • 在可行时优先使用专用工具而非通用工具

如果工具描述不清晰,智能体很容易被引导到完全错误的方向。因此,每一个工具都必须有:

  • • 明确的使用场景
  • • 清晰、无歧义的描述
  • • 与其他工具区分开的职责边界

5. 让智能体参与改进它自己

我们发现,Claude 4 系列模型本身就是非常优秀的提示工程师

当你向模型提供:

  • • 当前使用的提示
  • • 已观察到的失败模式

模型往往能够准确诊断失败原因,并提出可行的改进建议。

我们甚至构建了一个专门用于测试工具的智能体
当给它一个存在问题的 MCP 工具时,它会主动尝试使用该工具,然后重写工具描述,以避免常见失败。

通过对工具进行数十次测试,这个智能体能够发现许多隐藏的细节问题和边界缺陷。
最终,这种对工具可用性的改进,使后续智能体的任务完成时间降低了约 40%,因为它们能够避免大多数错误使用方式。

6. 先广后深:搜索策略应模仿人类专家

有效的搜索策略,应当与人类专家的研究方式一致:

先探索整体图景,再逐步深入具体细节。

但智能体往往会本能地使用过长、过于具体的查询语句,这通常只会返回极少的结果。

为此,我们在提示中明确要求智能体:

  • • 先使用简短、宽泛的查询
  • • 评估当前可获得的信息范围
  • • 再逐步缩小搜索焦点

7. 引导“思考过程”本身

扩展思考模式(Extended Thinking)可以作为一种可控的外显草稿空间

在我们的系统中:

  • • 主导智能体使用思考过程来:
  • • 制定研究计划
  • • 判断任务复杂度
  • • 决定子智能体数量
  • • 明确各子智能体的角色
  • • 子智能体则在工具调用之后使用:
  • 交错思考(interleaved thinking)
  • • 用于评估结果质量、发现信息缺口、调整下一轮搜索

测试结果显示,扩展思考显著提升了:

  • • 指令遵循能力
  • • 推理质量
  • • 整体执行效率

这使子智能体在面对变化任务时更加自适应。

8. 并行工具调用对速度和性能具有决定性影响

复杂研究任务天然需要探索大量信息源。

在早期版本中,智能体采用顺序搜索,速度极其缓慢。为了解决这一问题,我们引入了两种并行机制:

    1. 主导智能体并行生成 3–5 个子智能体
    1. 每个子智能体并行调用 3 个以上工具

这一改变使复杂查询的研究时间最多缩短了 90%,让 Research 能够在几分钟内完成过去需要数小时的工作,同时覆盖的信息范围也更广。

我们的提示策略并不是试图给智能体设定死板的流程,而是向它们灌输高质量的研究启发式方法,这些方法源自熟练人类研究者的行为模式,例如:

  • • 将复杂问题拆解为可管理的小任务
  • • 谨慎评估信息源质量
  • • 根据新信息不断调整搜索策略
  • • 在“深度探索”和“广度探索”之间做出判断

同时,我们也通过显式的安全护栏防止智能体行为失控,并构建了一个高可观测、快速迭代的反馈闭环

如何有效评测智能体

高质量的评测对于构建可靠的 AI 应用至关重要,智能体系统也不例外。但多智能体系统在评测上面临着独特的挑战

传统评测方法通常隐含一个前提:
给定输入 X,系统应当按照预期路径 Y 执行,并产生输出 Z。

然而,多智能体系统并不是这样工作的。即便起点完全相同,智能体也可能通过完全不同、但同样合理的路径完成任务。例如:

  • • 一个智能体可能只搜索 3 个信息源
  • • 另一个智能体可能搜索 10 个
  • • 它们还可能使用不同的工具,却得到相同的正确结论

由于我们往往事先并不知道“正确步骤”究竟是什么,因此通常无法仅通过检查智能体是否遵循了预设流程来评估其表现。相反,我们需要更加灵活的评测方式:既关注是否达成了正确结果,也关注其过程是否合理。

1. 尽早开始,用小样本进行评测

在智能体开发的早期阶段,任何改动往往都会带来幅度极大的效果变化,因为系统中存在大量“低垂的果实”。

一个提示的小调整,可能就能将成功率从30% 提升到 80%

在这种效果量级下,你只需要非常少量的测试样本,就能观察到明显变化。我们最初使用了大约20 个查询,这些查询来自真实使用场景,能够很好地代表用户行为。对这些查询进行反复测试,往往就足以判断一次改动是否有效。

我们经常听到一种说法:只有包含数百个测试用例的大规模评测才有价值,因此在此之前不值得投入时间。但我们的经验恰恰相反——应当尽早用小规模样本开始评测,而不是等待所谓“完备评测体系”成熟之后再行动。

2. 合理使用 LLM 作为评审者可以实现规模化评测

研究型输出通常很难用程序化方式评估,因为它们是自由文本,且往往不存在唯一正确答案。这使得LLM 非常适合充当评审者(LLM-as-judge)

我们使用一个 LLM 评审模型,根据评测量表(rubric)对输出进行打分,评估维度包括:

  • 事实准确性:结论是否与来源一致
  • 引用准确性:引用的来源是否真正支持对应结论
  • 完整性:是否覆盖了用户请求的所有方面
  • 来源质量:是否优先使用一手资料,而非低质量二手来源
  • 工具效率:是否以合理的次数、合理的方式使用了合适的工具

我们曾尝试为不同维度分别使用多个评审模型,但最终发现:
一次 LLM 调用、一个统一提示、输出 0.0–1.0 的分数并给出通过/不通过判断,反而是最稳定、且与人工判断最一致的方法。

当评测问题本身存在明确答案时,这种方式尤其有效。例如,可以直接让 LLM 判断:

“输出是否准确列出了研发预算最高的前三家制药公司?”

使用 LLM 作为评审者,使我们能够以可扩展的方式评测数百条输出结果

3. 人工评测能发现自动化评测遗漏的问题

无论自动化评测多么完善,人工测试始终不可替代

人工测试人员往往能够发现评测体系难以捕捉的边缘问题,例如:

  • • 针对非常规问题产生的幻觉式回答
  • • 系统级故障
  • • 隐蔽但系统性的来源偏好问题

在我们的案例中,人工测试者发现:
早期版本的智能体倾向于选择 SEO 优化严重的内容农场,而忽视了排名不高、但权威性更强的来源,例如学术 PDF 或个人技术博客。

我们随后在提示中加入了来源质量判断的启发式规则,有效缓解了这一问题。

即便在高度自动化的评测体系下,人工测试仍然是保证系统质量的重要防线

多智能体系统还会展现出大量涌现行为——这些行为并非由明确规则直接编程产生。

例如,对主导智能体做出一个看似微小的修改,可能会以不可预测的方式改变子智能体的行为模式。因此,成功构建多智能体系统,依赖的不只是单个智能体的表现,而是对智能体之间交互模式的整体理解。

在实践中,最有效的提示并不是僵硬的命令集合,而是为协作而设计的工作框架,它们明确了:

  • • 分工方式
  • • 问题求解路径
  • • 资源与精力预算

要把这些设计做好,离不开:

  • • 精细的提示与工具设计
  • • 高质量的启发式规则
  • • 良好的可观测性
  • • 快速而紧密的反馈循环

你可以在 Anthropic 的 Cookbook 中找到来自我们系统的开源示例提示。

生产环境中的可靠性与工程挑战

在传统软件中,一个缺陷可能只会破坏某个功能、降低性能或引发一次宕机。但在智能体系统中,哪怕是非常细小的改动,也可能引发行为层面的级联变化。这使得为需要在长时间运行过程中持续维护状态的复杂智能体编写可靠代码,变得异常困难。

1. 智能体是有状态的,错误会不断叠加

智能体往往会运行很长时间,在多次工具调用之间持续维护内部状态。这意味着系统必须具备持久化执行能力,并能在过程中妥善处理错误。如果没有有效的缓解机制,哪怕是很小的系统故障,也可能对智能体造成灾难性影响。

当错误发生时,我们无法简单地“从头再来”:重启代价高昂,也会给用户带来挫败感。因此,我们构建了可恢复执行的系统,使智能体能够从错误发生的位置继续运行。

同时,我们也充分利用模型本身的智能来优雅地处理问题。例如,当某个工具出现故障时,直接告知智能体这一事实,并允许它自行调整策略,往往会取得出乎意料的好效果。我们将基于 Claude 的自适应能力,与确定性的工程防护措施(如重试机制、定期检查点)相结合,从而提高整体鲁棒性。

2. 调试需要全新的方法

智能体会做出动态决策,即便在使用完全相同的提示条件下,不同运行之间的行为也可能并不一致。这种非确定性让调试变得更加困难。

例如,用户可能会反馈“智能体没有找到显而易见的信息”,但仅凭结果我们很难判断问题出在哪里:
是搜索查询写得不好?
选择了低质量来源?
还是工具本身发生了故障?

为了解决这一问题,我们在生产环境中引入了完整的执行追踪(tracing),从而能够系统性地诊断失败原因并加以修复。除了传统的可观测性指标外,我们还会监控智能体的决策模式与交互结构,在不监控具体对话内容的前提下保护用户隐私。

这种高层级的可观测性,帮助我们定位根因、发现意料之外的行为模式,并修复反复出现的失败问题。

3. 部署需要精细的协调机制

智能体系统是由提示、工具和执行逻辑构成的高度有状态的网络,而且几乎是持续运行的。这意味着在我们发布新版本时,系统中已经存在的智能体可能正处于流程中的任意阶段。

我们无法在同一时刻将所有智能体统一升级到新版本。因此,需要防止“善意的代码改动”破坏正在运行的智能体。

为此,我们采用了彩虹部署(rainbow deployment)策略:
在新旧版本并存的情况下,逐步将流量从旧版本切换到新版本,从而在不中断现有智能体执行的前提下完成升级。

4. 同步执行带来的瓶颈

目前,我们的主导智能体以同步方式执行子智能体:它必须等待一批子智能体全部完成后,才能继续下一步。这种方式简化了协调逻辑,但也在智能体之间的信息流中制造了瓶颈。

具体来说:

  • • 主导智能体无法在子智能体运行过程中进行实时引导
  • • 子智能体之间无法相互协作
  • • 只要有一个子智能体迟迟未完成,整个系统就会被阻塞

如果改为异步执行,就可以引入更多并行性:
智能体可以并发运行,并在需要时动态生成新的子智能体。

但异步化也会带来新的挑战,包括:
结果协调、状态一致性、以及错误在子智能体之间的传播问题。

随着模型能力不断提升、能够处理更长时间跨度和更高复杂度的研究任务,我们预计,这种复杂性最终将被性能收益所抵消。

结论

在构建 AI 智能体系统时,最后一公里往往才是绝大多数路程。那些在开发者本地机器上看起来运作良好的代码,要变成可靠的生产系统,往往需要大量额外的工程投入。

在智能体系统中,错误具有复合放大效应
对传统软件来说只是“小问题”的缺陷,可能会让智能体彻底偏离预期轨道。某一个步骤的失败,就可能导致智能体走上一条完全不同、且不可预测的路径。

正因如此,从原型到生产之间的差距,往往比人们预期的要大得多。

尽管存在这些挑战,多智能体系统在开放式研究任务中已经展现出巨大的价值。用户反馈显示,Claude 帮助他们发现了此前未曾想到的商业机会,理清了复杂的医疗决策,解决了棘手的技术问题,并通过挖掘原本难以发现的研究线索,为他们节省了数天时间。

只要具备谨慎的工程设计、全面的测试、对提示与工具的精细打磨、稳健的运维实践,以及研究、产品和工程团队之间的紧密协作,多智能体研究系统就能够在规模化场景下可靠运行。我们已经看到,这类系统正在改变人们解决复杂问题的方式。


最后

选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!

由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
包括:AI大模型学习路线、LLM面试宝典、0基础教学视频、大模型PDF书籍/笔记、大模型实战案例合集、AI产品经理合集等等

AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询