文章深度解析了2025年AI Agent生态的六大关键领域,包括Claude Agent SDK、OpenAI Agents SDK、Manus的成功实践、Context Engineering的核心作用、Agentic与Workflow架构选择及MCP连接标准。指出Context Engineering已取代Prompt Engineering成为Agent开发核心学科,强调上下文管理是AI Agent成功关键,MCP已成为行业标准。
引言
2025年的AI Agent生态发生了根本性转变。
Anthropic、OpenAI同时发布生产级Agent SDK。MCP协议一年内被全行业采纳。Manus用8个月冲到1亿美金ARR,然后被Meta收购。
但真正值得关注的变化藏在这些新闻背后:Context Engineering(上下文工程)正在取代Prompt Engineering成为Agent开发的核心学科。
这篇报告覆盖六个关键领域,每个数据都有来源,每个判断都可验证。
Claude Agent SDK:给Claude一台电脑
Anthropic在2025年9月29日发布Claude Agent SDK,与Claude Sonnet 4.5同步上线[1][2]。SDK提供Python(v0.1.6)和TypeScript(v0.1.76)两个版本[3],底层架构与Claude Code完全一致。Agent可以直接执行终端命令、操作文件系统、迭代调试代码。
核心设计理念是**「给Claude一台电脑,让Agent像人类一样工作」**[1]。
这话听起来像营销口号,但技术实现很硬核:SDK不是把系统交互封装成安全的API调用,而是直接把bash执行、文件读写、web搜索、glob匹配这些程序员真正用的工具交给Agent。Agent不再是沙箱里的玩具,而是真正的系统操作员。
SDK的核心架构特性:
🔧原生MCP集成支持四种服务器类型:stdio(本地进程)、SSE(服务器推送事件)、HTTP,以及最值得关注的in-process SDK MCP服务器。最后这个完全消除了子进程开销[4][5]。
🔧自动上下文压缩会在接近200k token上限时自动总结对话历史。配合memory工具使用,在agentic搜索任务上实现了39%的性能提升[1]。
🔧长任务支持采用双Agent架构(初始化Agent + 编码Agent),可以跨多个上下文窗口保持专注。测试中Claude Sonnet 4.5实现了超过30小时的自主编码[6]。
🔧内置工具(Read、Write、Edit、Bash、Glob、Web Search)开箱即用,不需要像Messages API那样手动实现[7]。
SDK的会话管理、文件检查点、权限系统解决了开发者之前必须从零搭建的生产环境问题。2025年11月26日,Anthropic发布了详细的工程指南,文档化了长任务Agent的有效模式:进度追踪文件、git集成状态管理、会话间的结构化交接[6]。
💡**关键洞察:**Claude Agent SDK的哲学是「少抽象,多授权」。Agent不是被保护的对象,而是被信任的操作员。
OpenAI Agents SDK:多Agent编排的生产化之路
OpenAI在2025年3月发布Agents SDK,作为2024年实验性Swarm框架的生产级继任者[8]。这标志着OpenAI向「Agent原生API」的战略转型,SDK与新发布的Responses API紧密集成,后者取代了已废弃的Assistants API。
框架设计刻意保持最小抽象:Agents(带指令和工具的LLM)、Handoffs(Agent间控制转移的专用工具调用)、Guardrails(输入输出校验)、Sessions(对话历史管理)、Tracing(内置调试)[8]。OpenAI明确优化的目标是「快速上手」同时「生产可用」。
多Agent交接(Handoffs)是一等公民,不是事后补丁。
2025年11月的v0.6.0版本有一个破坏性更新:在交接时,消息历史被压缩成单条上下文消息,前缀是:「For context, here is the conversation so far between the user and the previous agent」[9]。这个设计同时支持中心化编排(中央Agent指挥专家Agent)和去中心化交接(Agent自主传递控制权)。
2025年10月DevDay,OpenAI发布AgentKit,包含Agent Builder。这是一个可视化拖拽画布,用于创建多Agent工作流[10][11]。Sam Altman把它比作「构建Agent的Canva」:基于节点的工作流设计,内置版本控制、预览运行、导出SDK代码。可视化画布解决了一个关键采纳障碍:让产品、法务、工程团队在Agent行为上保持对齐。
Assistants API与Agents SDK架构对比(图片由安涛在 Nano Banana 生成)
与已废弃AssistantsAPI的对比揭示了哲学转变:
| 维度 | Assistants API | Agents SDK + Responses API |
| 状态管理 | 服务端(Threads、Runs) | 客户端(Sessions) |
| 工具执行 | 平台托管 | 在模型推理链内执行 |
| 内置工具 | 有限 | Web搜索、代码解释器、计算机使用、MCP |
| 成本效率 | 较高 | 缓存利用率提升40-80% [10] |
Assistants API从未走出beta阶段,计划于2026年8月26日正式下线,官方文档已提供完整迁移指南。
💡**关键洞察:**OpenAI的转型方向是「状态下沉到客户端,工具融入推理链」。这意味着更低成本、更好的缓存命中,但也意味着开发者需要自己管理更多状态。
Manus:Context Engineering的极致实践
Manus是2025年最炸裂的AI Agent产品。8个月做到1亿美金****ARR,据报道是有史以来达到这个里程碑最快的创业公司[12]。
创始人肖红(Red)通过母公司蝴蝶效应科技运营,Manus于2025年3月6日上线,2025年12月29日被Meta以估计20-30亿美金收购[13][14]。
**技术架构已通过首席科学家季逸超(Peak Ji)的公开声明验证:**Manus使用Anthropic的Claude 3.5 Sonnet v1作为主推理模型,辅以阿里Qwen的微调版本处理辅助任务[15][16]。多Agent架构将用户隔离在「执行器Agent」层面,而规划器、知识库、专业子Agent在独立的上下文窗口中运行。
但Manus真正的技术贡献是系统化的Context Engineering。他们把上下文管理当作首要工程挑战,而不是事后优化。
Peak Ji在2025年7月的博客文章中透露,他们重写了四次Agent框架(到2025年10月是五次),每次重写都源于对上下文塑造的新发现[17]。团队把这种迭代过程叫做「随机研究生下降法」(Stochastic Graduate Descent)。
Manus公开的Context Engineering核心原则[17][18]:
⚡KV-cache优化是首要指标。保持稳定的prompt前缀,用Claude Sonnet可以实现10倍成本降低。
⚡文件系统是无限外部****内存。完整内容存磁盘,只把元数据和摘要传给模型,可实现100:1的压缩比。
⚡todo.md注意力操控。不断重写目标列表,把目标保持在模型的近期注意力窗口里,避免「迷失在中间」的退化现象。
⚡保留错误在上下文中。让失败操作保持可见,帮助Agent避免重复犯错。
关于数字声明的验证说明:「处理了147万亿token」和「创建了8000万台虚拟机」是官方声明,发布在Manus的1亿ARR公告(2025年12月17日)和Meta收购公告(2025年12月29日)中[12][14]。这些是自报数据,目前没有独立第三方验证。引用这些数字时应注明「据Manus称」。
💡**关键洞察:**Manus的成功不在模型能力,在上下文工程。同样的Claude Sonnet,Manus能做到别人做不到的事,差距在context怎么填、怎么压、怎么切。
Context Engineering:Agent开发的核心学科
「Context Engineering」这个词在Andrej Karpathy 2025年6月25日的推文后获得行业级关注,他主张用这个术语取代「Prompt Engineering」。
Karpathy的原话是:「Context Engineering是精细的艺术和科学,目标是用恰好正确的信息填满上下文窗口,服务于下一步操作。」
他的论点是:工业级LLM应用需要复杂的信息管理。任务描述、few-shot示例、RAG检索、多模态数据、工具、状态、历史。这远超「prompts」这个词所能涵盖的范围[17]。
LangChain在2025年7月的框架文档中形式化了四个核心操作:
**写入上下文(Write)**指把信息保存到上下文窗口之外,供后续使用。实现方式包括草稿本(工具写入文件或状态对象)、跨会话持久化的长期记忆、结构化笔记模式。Anthropic的多Agent研究员使用Memory工具将计划持久化到200k token限制之外[1]。
选择上下文(Select)指在需要时把相关信息拉入窗口。RAG是最常见的实现,结合embedding搜索、AST解析、grep、知识图谱。通过语义相似性进行工具选择,相比同时提供所有工具,准确率可提升3倍[17]。
**压缩上下文(Compress)**指只保留当前任务所需的token。Claude Code的「auto-compact」功能在上下文使用率达95%时总结轨迹。像Provence这样的训练裁剪器提供比简单消息截断更精细的方法[1][6]。
隔离上下文(Isolate)指将信息分割到多个容器中。多Agent架构给每个子Agent独立的上下文窗口、工具和指令。Anthropic的多Agent研究系统通过隔离实现了90.2%更高的成功率,代价是15倍的token成本[1]。
Context Engineering四大操作:Write、Select、Compress、Isolate(图片由安涛在 Nano Banana 生成)
**研究者Drew Breunig记录了四种失败模式:**context poisoning(幻觉进入并复合)、context distraction(模型过度关注长历史而非训练)、context confusion(冗余内容影响响应)、context clash(上下文内信息矛盾)[17]。
DeepMind在他们的Pokémon Gemini Agent中记录了poisoning现象:「上下文的许多部分被关于游戏状态的错误信息『污染』,这通常需要很长时间才能纠正。」
Cognition AI总结了新兴共识:「Context Engineering实际上是构建AI Agent的工程师的第一要务。」[17]
💡**关键洞察:**Agent失败不是模型失败,是上下文失败。你的RAG召回了100条,模型只看前5条。你的排序逻辑比检索逻辑更重要。
Agentic vs Workflow:生产系统中的两种范式
行业已经在这两种架构方法的定义上达成了清晰共识。
Anthropic定义**工作流****(Workflows)为「LLM和工具通过预定义代码路径编排的系统」,定义智能体(Agents)**为「LLM动态指导自身过程和工具使用、保持对如何完成任务的控制的系统」[19]。
**工作流****提供可预测性、更低成本(据Anthropic称约为Agent的四分之一token消耗)、更容易调试。**适合定义明确、可重复、一致性重要的任务。发票处理、审批自动化、营销排期。
五种常见工作流模式已被文档化:prompt chaining(顺序LLM调用)、parallelization(并行操作)、routing(分类后路由)、orchestrator-worker(动态子任务委派)、evaluator-optimizer(生成-评估-优化循环)[19][20]。
**Agent提供灵活性,处理无法完全预定义的任务。**通过实时推理处理新情况。擅长自主研究、复杂投诉解决、需要适应性问题解决的编码任务。代价是更高成本、可变延迟,以及从业者所说的「AI考古学」。调试埋在长执行轨迹中的错误。
混合架构已成为生产标准。
LangChain的表述是:「生产中的大多数agentic系统是工作流和Agent的组合。生产级框架需要同时支持两者。」
常见模式包括:workflow-with-embedded-AI-steps(确定性流程中嵌入LLM驱动的提取)、agent-gated-workflows(Agent分类,工作流执行)、workflow-orchestrating-agents(工作流路由,Agent处理复杂子任务)。
Anthropic的核心指导仍具影响力:「从简单prompt开始,用全面评估优化它们,只在简单方案不够时才添加多步agentic系统。」[19]
这种务实方法优先考虑生产可靠性,而非架构精巧性。
💡**关键洞察:**选workflow还是agent?取决于你的任务能不能被完全预定义。能预定义就用workflow,便宜四倍还好调试。不能预定义才上agent,但要做好「AI考古」的准备。
MCP:Agent连接的USB-C时刻
Model Context Protocol(MCP)在短短一年多时间内确立了行业标准地位。
MCP由Anthropic创建,2024年11月开源[21],2025年12月9日捐赠给Linux基金会下新成立的Agentic AI Foundation(AAIF)[22],确保了关键AI基础设施的厂商中立治理。
MCP解决的是「N×M集成问题」。以前每个AI应用都需要为每个工具或数据源建立自定义连接器。MCP提供通用协议,把这降低到N+M个集成。常被形容为**「AI应用的USB-C」**[23][24]。
**协议架构包含三层:**MCP Hosts(运行LLM的应用,如Claude Desktop或ChatGPT)、MCP Clients(维护hosts和servers之间的隔离会话)、MCP Servers(暴露工具、资源和prompts的轻量级程序)。通信使用JSON-RPC 2.0,传输层支持stdio(本地进程)、streamable HTTP(远程服务器)或自定义传输[24][25]。
采纳数据展示了快速的行业渗透[26][27]:
- 超过10,000个已发布的MCP服务器,覆盖开发者工具到财富500强部署
- 服务器下载量从约10万(2024年11月)增长到超过800万(2025年4月)
- 预计到2025年底90%的组织将使用MCP
所有主要AI提供商都已采纳MCP[22][23][28]:
- OpenAI:ChatGPT(2025年3月)、Agents SDK、Responses API全面支持
- Google:Gemini CLI、AI Studio、BigQuery和Maps的托管MCP服务器
- Microsoft:Copilot、Azure OpenAI、Semantic Kernel集成
- AWS:Amazon Bedrock、Kiro、Strands、AgentCore
AAIF白金会员包括Amazon Web Services、Anthropic、Block、Bloomberg、Cloudflare、Google、Microsoft和OpenAI。黄金会员覆盖主要企业软件公司:Cisco、Datadog、Docker、IBM、JetBrains、Oracle、Salesforce、SAP、Shopify、Snowflake和Twilio[22]。
官方SDK支持Python(20.1k GitHub stars)、TypeScript(10.7k stars)、C#(Microsoft协作)、Go(Google协作)、Rust、Kotlin(JetBrains)、PHP、Ruby(Shopify)、Java和Swift[29]。MCP servers仓库积累了72.7k stars,提供Google Drive、Slack、GitHub、Postgres、Puppeteer等数十个预构建集成。
安全研究人员已识别的挑战包括prompt注入漏洞、工具权限问题,以及恶意服务器伪装可信服务器的潜在风险。企业部署需要仔细关注认证、授权和合规审计[26]。
💡**关键洞察:**MCP的价值不在协议本身,在网络效应。当OpenAI、Google、Microsoft、AWS全部接入同一个标准,生态就锁定了。现在不上MCP的Agent框架,就是在等死。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!