烟台市网站建设_网站建设公司_代码压缩_seo优化
2025/12/23 13:57:50 网站建设 项目流程

LangChain 调查了 1300 多名专业人士,涵盖工程师、产品经理、业务负责人及企业高管,旨在揭示 AI 智能体的发展现状。让我们深入解读数据,剖析如今 AI 智能体的应用(或未被应用)情况。

1. 引言

步入 2026 年,各组织已不再纠结是否要构建智能体,而是聚焦于如何可靠、高效且大规模地部署它们。LangChain 通过对 1300 多名专业人士的调研,了解到他们在 AI 智能体应用场景优化及智能体工程挑战应对方面的进展。

1.1 关键发现

生产落地势头强劲:57% 的受访者表示其所在组织已将智能体投入生产,大型企业在采用率方面处于领先地位。

质量是生产落地的关键瓶颈:32% 的受访者将质量列为首要障碍,而成本担忧较去年有所下降。

可观测性成为必备基础:近 89% 的受访者已为其智能体部署可观测性方案,普及率高于评估方案(52%)。

多模型并行成为常态:OpenAI 的 GPT 模型占据主导地位,但 Gemini、Claude 及开源模型的采用率也显著提升,微调尚未得到广泛应用。

2. 核心洞察

2.1 什么是智能体工程?

智能体工程是将大型语言模型(LLMs)整合为可靠系统的迭代过程。由于智能体具有非确定性,我们认为工程师需要通过快速迭代来优化和提升智能体质量。

2.2 大型企业引领采用潮流

超过半数(57.3%)的受访者表示其所在组织已在生产环境中运行智能体,另有 30.4% 的组织正在积极开发智能体,并制定了明确的部署计划。

这与去年的调查结果相比有明显增长,去年仅有 51% 的受访者表示已将智能体投入生产。各组织正从概念验证阶段迈向规模化生产,如今大多数组织面临的问题已不再是 “是否要部署智能体”,而是 “如何部署” 以及 “何时部署”。

2.2.1 贵公司目前是否已将智能体投入生产?

状态2024 年受访者2025 年受访者
51.2%57.3%
否,但正在积极开发并计划投入生产38.1%30.4%
否,仅处于探索阶段10.7%12.3%

2.2.2 规模增长带来哪些变化?

员工规模 1 万人以上的组织:67% 已将智能体投入生产,24% 正在积极开发并计划部署。

员工规模不足 100 人的组织:50% 已将智能体投入生产,36% 正在积极开发。

这表明大型组织从试点到构建稳定系统的推进速度更快,这可能得益于其在平台团队、安全性及可靠性基础设施方面的更大投入。

2.2.3 不同规模公司的智能体生产落地情况

公司规模否,但正在积极开发并计划投入生产否,仅处于探索阶段
初创企业(<100 人)50%36%14%
成长型企业(100-500 人)50%34%16%
中端市场企业(500-2000 人)64%22%14%
中高端市场企业(2000-10000 人)53%32%14.5%
大型企业(10000 + 人)67%25%8%

2.3 主要智能体应用场景

客户服务成为最常见的智能体应用场景(26.5%),研究与数据分析紧随其后(24.4%)。这两大场景合计占所有主要智能体部署案例的一半以上。

2.3.1 您的主要智能体应用场景是什么?

客户服务:26.5%

研究与数据分析:24.4%

内部生产力提升:17.7%

代码生成:9.8%

内容生成:9.0%

销售 / 营销自动化:6.0%

其他:6.7%

客户服务场景的高占比表明,各团队正逐渐将智能体直接面向客户,而非仅用于内部场景。与此同时,智能体在内部场景的价值仍十分显著,18% 的受访者表示使用智能体实现内部工作流自动化,以提升员工效率。

研究与数据分析场景的普及进一步印证了如今智能体的核心优势:整合海量信息、跨来源推理以及加速知识密集型任务。

值得注意的是,今年受访者选择的应用场景更加多样化(每位受访者仅可选择一个主要场景),这表明智能体的应用已不再局限于少数早期场景,而是向更多领域拓展。

2.3.2 规模增长带来哪些应用场景变化?

在员工规模 1 万人以上的组织中,内部生产力提升成为首要应用场景(26.8%),客户服务(24.7%)和研究与数据分析(22.2%)紧随其后。大型企业可能更倾向于先通过智能体提升内部团队效率,再逐步(或同时)将智能体部署给终端用户。

2.4 落地生产的最大障碍

与去年的调查结果一致,质量仍是智能体落地生产的最大障碍。今年,三分之一的受访者将质量列为首要瓶颈,这包括输出的准确性、相关性、一致性,以及智能体维持适当语气、遵守品牌或政策准则的能力。

2.4.1 您在将智能体投入生产过程中面临的最大障碍是什么?

输出质量:32.9%

延迟 / 响应时间:20.1%

安全与合规:16.0%

部署基础设施:13.9%

成本管理:12.8%

其他:4.2%

延迟已成为第二大挑战(20%)。随着智能体被应用于客户服务、代码生成等面向客户的场景,响应时间已成为用户体验的关键因素。这也反映了各团队在质量与速度之间的权衡,功能更强大、需多步骤处理的智能体虽能提供更高质量的输出,但响应速度往往较慢。

相比之下,成本已不再是往年那样受关注的问题。模型价格的下降和效率的提升,使得各组织的关注点从单纯的支出转向如何让智能体更高效、更快速地发挥作用。

2.4.2 规模增长带来哪些障碍变化?

在员工规模 2000 人以上的企业中,质量仍是首要障碍,但安全已成为第二大关注点(24.9% 的受访者提及),超过了延迟,延迟更常被小型组织列为挑战。

2.4.3 不同规模公司面临的智能体生产落地障碍

障碍类型小型企业(<100 人)中型企业(100-2000 人)大型企业(2000 + 人)
输出质量32.6%34.4%32.5%
延迟22.6%18.4%18.5%
安全10.4%15.6%24.9%
部署基础设施13.2%12.1%12.8%
成本管理16.0%8.8%15.2%

对于员工规模 1 万人以上的组织,书面反馈显示,智能体生成输出时的幻觉问题和一致性问题是确保质量的最大挑战。许多组织还提到,在上下文工程及大规模上下文管理方面仍面临持续困难。

2.5 智能体的可观测性

对多步骤推理链和工具调用进行追踪的能力,已成为智能体的必备基础。89% 的组织已为其智能体部署了某种形式的可观测性方案,其中 62% 具备详细追踪功能,可查看智能体的每个步骤和工具调用情况。

2.5.1 您是否已为智能体部署可观测性方案?

是,可追踪智能体的每个步骤和工具调用:62.4%

是,但仅具备基础日志 / 指标:26.4%

否:11.2%

在已将智能体投入生产的受访者中,可观测性的普及率更高:94% 已部署某种形式的可观测性方案,71.5% 具备完整的追踪能力。这揭示了智能体工程的一个基本事实:若无法了解智能体的推理过程和行为,团队就无法可靠地排查故障、优化性能,也无法赢得内部和外部利益相关者的信任。

2.5.2 已将智能体投入生产的情况下,您是否已部署可观测性方案?

是,可追踪智能体的每个步骤和工具调用:71.5%

是,但仅具备基础日志 / 指标:22.5%

否:6.0%

2.6 智能体的评估与测试

尽管可观测性的采用率更高,但智能体评估仍在追赶并逐渐获得更多关注。略超半数(52.4%)的组织表示会基于测试集进行离线评估,这表明许多团队已意识到在部署前排查回归问题、验证智能体行为的重要性。在线评估的采用率较低(37.3%),但随着各团队开始监控智能体在实际场景中的性能,其普及率正在逐步提升。

2.6.1 您通过哪些方式评估智能体?(可多选)

基于测试集的离线评估:52.7%

基于生产数据的在线评估:38.3%

尚未进行评估:29.4%

其他:1.7%

对于已将智能体投入生产的组织,评估实践可能更为成熟,整体评估采用率明显更高(“尚未进行评估” 的比例从 29.5% 降至 22.8%)。我们还发现,更多组织开始采用在线评估(44.8%),这表明一旦智能体面向真实用户,团队需要通过观测生产数据来实时发现问题。

2.6.2 已将智能体投入生产的情况下,您通过哪些方式评估智能体?(可多选)

基于测试集的离线评估:54.5%

基于生产数据的在线评估:44.8%

尚未进行评估:22.8%

其他:2.5%

大多数团队仍从离线评估入手,这可能是因为离线评估的入门门槛更低、设置更简单,但许多团队正逐步采用混合评估方法。在进行评估的组织中,近四分之一同时结合了离线评估和在线评估。

2.6.3 进行评估的组织所采用的评估方式

仅离线评估:44.9%

仅在线评估:25.0%

离线 + 在线评估:30.1%(注:原文数据未直接给出,根据上下文推算)

进行评估的组织还会结合人工评估和自动化评估方法:利用 “LLM 作为评判者”(LLM-as-a-Judge)实现广度评估,通过人工审核确保深度评估。更广泛地说,人工审核(59.8%)在复杂或高风险场景中仍不可或缺,而 “LLM 作为评判者” 的方法(53.3%)正越来越多地被用于规模化评估质量、事实准确性和准则遵守情况。相比之下,ROUGE、BLEU 等传统机器学习指标的采用率较低,这些指标可能不太适用于存在多种有效响应的开放式智能体交互场景。

2.6.4 您使用哪些指标评估智能体?(可多选)

LLM 作为评判者(LLM-as-judge):53.3%

内部人工审核 / 标注:59.8%

传统机器学习 / 数据科学指标(ROUGE、BLEU 等):16.9%

其他:1.3%

2.7 模型与工具生态

OpenAI 模型占据主导地位,但很少有团队依赖单一供应商。

超过三分之二的组织表示使用 OpenAI 的 GPT 模型,但模型多样性已成为常态,超过四分之三的组织在生产或开发过程中使用多种模型。各团队越来越倾向于根据任务复杂度、成本、延迟等因素,将不同任务分配给不同模型,而非陷入单一平台锁定。

2.7.1 您的智能体使用哪些模型?(可多选)

OpenAI(GPT 系列):67.8%

谷歌(Gemini):37.4%

Anthropic(Claude):36.6%

开源模型:34.2%

其他:5.9%

尽管商业 API 使用便捷,但许多组织仍将内部部署模型视为重要战略。三分之一的组织表示正在投入资源构建部署自有模型所需的基础设施和专业能力。开源模型的采用可能受到以下因素驱动:大规模场景下的成本优化、数据驻留与主权要求,或敏感行业的监管约束。

与此同时,微调仍是专业化操作,尚未成为标准流程。大多数组织(55.7%)未进行模型微调,而是依赖基础模型,结合提示工程(Prompt Engineering)和检索增强生成(RAG)技术。由于微调需要在数据收集、标注、训练基础设施及持续维护方面投入大量资源,因此它通常仅用于影响重大或高度专业化的应用场景。

2.7.2 您是否进行过模型微调?

是,且在生产中大量使用:13.8%

是,但仅处于实验阶段(主要使用基础模型):30.5%

否:55.7%

3. 日常使用的智能体类型

当被问及 “您在日常工作中最常使用哪些智能体?” 时,书面反馈呈现出以下几个明显趋势:

3.1 代码智能体主导日常工作流

最常被提及的智能体是代码助手。受访者多次表示,Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf、Antigravity 等工具已成为其日常开发流程的一部分,无论是用于代码生成、调试、测试创建,还是浏览大型代码库。

3.1.1 受访者日常最常使用的智能体

Claude Code:120 + 次提及

Cursor:110 + 次提及

GitHub Copilot:80 + 次提及

Amazon Q:65 + 次提及

3.2 研究与深度研究智能体紧随其后

第二大常见类别是由 ChatGPT、Claude、Gemini、Perplexity 等工具支持的研究与深度研究智能体。这些智能体被用于探索新领域、总结长文档以及整合跨来源信息。它们通常与代码智能体配合使用,融入同一工作流。

3.3 基于 LangChain 和 LangGraph 构建的自定义智能体也颇受欢迎

第三类明显的反馈指向自定义智能体,许多受访者表示基于 LangChain 和 LangGraph 构建了内部智能体,用于质量保证测试、内部知识库搜索、SQL / 文本转 SQL、需求规划、客户支持及工作流自动化等场景。

有相当一部分受访者表示,除了 LLM 聊天或代码辅助工具外,他们尚未使用其他类型的智能体。这表明尽管智能体的使用已较为普遍,但 “万物皆智能体” 的广泛应用仍处于早期阶段。

4. 研究方法

本报告的洞察来源于 2025 年 11 月 18 日至 12 月 2 日期间开展的一项公开调查,调查为期两周,共收集到 1340 份有效反馈。以下是部分人口统计学数据:

4.1 前五大受访行业

科技行业:63%

金融服务行业:10%

医疗健康行业:6%

教育行业:4%

消费品行业:3%

制造业:3%

4.2 受访公司规模

不足 100 人:49%

100-500 人:18%

500-2000 人:15%

2000-10000 人:9%

10000 + 人:9%

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询