文章分享了吴恩达推荐的Agent开发四阶段方法论:阶段零(人工模拟真实案例梳理流程)、阶段一(将人类流程翻译成AI流程)、阶段二(单点验证而非整体开发)、阶段三(建立测评集并循环优化)、阶段四(设定Good Enough目标)。核心理念是分步验证、快速迭代、数据说话,避免新手常犯的先搭建后发现问题导致推倒重来的错误,提高开发效率。
新手做 Agent,80% 时间搭建,20% 时间分析问题,老手正好反过来。
我最近看了吴恩达的 Agentic AI 课程,这是他的观察。
新手往往会踩一种坑:
花两周搭完系统,联调时发现第一步就错了,后面所有模块,都建在错误的地基上。
推倒重来。
以前我就是这么干的:拿到需求 → 脑子里过一遍思路 → 各模块逐个做完 → 最后串起来测试。
出现的问题是:你要到最后一步才知道前面哪里错了。
更惨的是,等你改完第一步,第二步的假设可能也不对了,又要改,改完第二步,第三步又崩了……
吴恩达给出的方法论正好相反:做一步,测一步,确认对了再往下走。
具体怎么做?下面用一个例子说明。
人类怎么做,AI 就怎么做
这是吴恩达特别强调的第一步,也是最反常识的一步:
大多数人拿到需求就开始思考「用什么模型」「怎么写 Prompt」「要不要用 RAG」,但吴恩达建议:
先找 5-10 个真实案例,自己当人类把这件事做一遍,记下每一步在想什么、查了什么、怎么决策的。
为什么要这么做?因为很多开发者连自己都没想清楚流程,就急着让 AI 去做。
举个例子,如果让你处理一封客服邮件,你怎么判断要不要查订单数据?看邮件里有没有订单号?还是根据发件人邮箱去猜?
没提供订单号时,你是直接回复「请提供订单号」,还是先根据用户名搜一下?
这些细节,如果你自己都没想清楚,AI 肯定也做不好。
所以阶段零的价值是:逼着你把流程梳理清楚,同时这些真实案例直接变成你后面的测评集。
把人类流程翻译成 AI 流程
梳理完人类怎么做,接下来就把它翻译成 AI 能做的:
我的做法是把 Agent 拆成三部分:大脑(LLM)、手(工具)、眼(多模态)。
大脑:负责思考、决策、生成文本。
手:负责调用外部工具,执行具体任务。
眼:负责理解和处理多模态输入(如图片、视频)。
以客服邮件 Agent 为例:
第一步:打开邮件
- • 人类:点开邮箱,看发件人、标题、正文
- • AI:用邮件 API 读取邮箱号、标题、发件时间、正文(不可能真让 AI 去点鼠标,只能通过 API 获取数据)
第二步:判断要不要查订单
- • 人类:看邮件内容,判断是咨询、投诉还是其他
- • AI:用 LLM + Prompt,让它扮演客服角色,按什么原则去判断
第三步:查订单数据
- • 人类:打开数据库,输入订单号或用户名,看有没有匹配的
- • AI:提供数据库查询工具(API),LLM 决定查什么、怎么查
第四步:匹配验证
- • 人类:确认查到的订单信息和发件人是否匹配
- • AI:让 LLM 对比邮件信息和订单信息,判断是不是同一个人
第五步:组织回复
- • 人类:先安抚理解,再提供解决方案
- • AI:给 LLM 一个回复模板或原则,生成邮件内容
整个流程梳理完,你会发现:哪些步骤需要 LLM 思考,哪些步骤需要工具支持,哪些步骤能提前优化。
一目了然。
单点验证,而不是整体开发
流程翻译完,别急着搭整个系统。吴恩达的建议是:先单点验证,做一个测一个。
什么叫单点验证?比如邮件 API 能调通吗?有没有官方 API?没有的话第三方能不能实现?
LLM 判断「要不要查订单」这个任务,写个 Prompt 在 ChatGPT 里测几轮,能做到吗?
数据库查询工具,LLM 能正确调用吗?参数传递有没有问题?
这个阶段的重点是「能不能跑通」,而不是「质量如何」。
如果某个工具根本调不通,或者 LLM 完全理解不了你的意图,那就要重新考虑方案。
别等到整个系统搭完了才发现「这条路走不通」。
等每个单点都验证通过,再用工作流编排工具(比如 n8n、Dify)或者自己写代码把它们串起来,确保数据流转正常。
这个阶段可能只需要 2-3 天,就能拿到一个能跑的原型。
测评集从小到大,循环优化
原型跑通之后,就进入评估阶段。
评估阶段第一件事:建测评集,但别一开始就建 100 个,10-20 个就够了。
为什么?因为 10-20 个足以发现大部分问题,标注成本低(你要写标准答案),迭代速度也快。
怎么做?
第一轮:肉眼看几个输出
随便跑几个案例,看看输出长什么样。这一步能快速发现明显问题,比如「完全没理解邮件内容」「查了订单但没用上」。
第二轮:建 10 个测试样本
从阶段零的真实案例里选 10 个,写好标准答案,跑一遍看准确率。
假设准确率只有 40%,别慌,这是正常的。
第三轮:错误分析
把失败的案例拎出来,逐个组件检查中间数据:是邮件理解错了?是数据库查询失败了?还是回复逻辑有问题?
统计一下:哪个环节错得最多?
假设发现「判断要不要查订单」这一步错误率 50%,那就优先优化这个组件。
第四轮:组件级优化
单独拎出这个组件,改 Prompt、加 Few-shot、换模型,测到满意为止。
比如原来准确率 10%,优化后提升到 60%。
第五轮:端到端重新测
组件优化完,回到完整流程重新跑一遍评估。
准确率从 40% → 65%。还不够?回到第三轮继续分析。
这是一个循环:评估 → 错误分析 → 优化组件 → 重新评估 → 再分析 → 再优化……
可能要转 3-5 轮,直到准确率达到你的目标。
什么时候可以停下来?
有个陷阱要注意:永远在优化,永远觉得「还不够好」。
怎么办?设个「Good Enough」的阶段性目标。
比如:
- •MVP 目标:端到端准确率 > 70%(可以内测)
- •上线目标:端到端准确率 > 85%(可以小范围上线)
- •成熟目标:端到端准确率 > 95%(全量推广)
为什么要设阈值?这样可以避免陷入完美主义,让你能阶段性交付。
先上线一个「能用」的版本,再根据真实反馈慢慢改。
而且有个现象:
好问题:用户太多,成本扛不住。
坏问题:又快又便宜,但质量差没人用。
所以质量优先,成本和速度是质量稳定之后才考虑的事。
整个方法论可以总结为:
阶段零:人工模拟 5-10 个真实案例,梳理清楚流程
阶段一:把人类流程翻译成 AI 流程(大脑-手-眼)
阶段二:单点验证,做一个测一个,串起来测数据流转
阶段三:建测评集(10个 → 20个 → 50个),循环优化(评估 → 分析 → 改进 → 再评估)
阶段四:设定 Good Enough 目标,质量稳定后再优化成本和速度
核心就是:分步验证、快速迭代、数据说话。
如果你在做 Agent,这套流程能帮你少走弯路。
更重要的是,它让你随时知道问题在哪,而不是凭感觉瞎改。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**