本文系统梳理大模型技术生态的核心组件,包括AIGC(单/多模态内容生成)、RAG技术(实时信息获取解决方案)、Function Calling(模型工具调用能力)、Agent(智能规划执行体)及MCP协议(AI工具统一接入标准)。内容由浅入深,兼顾概念解析与实际应用场景,专为程序员和AI入门小白打造,助力快速搭建大模型技术认知框架,建议收藏反复学习。
1、AIGC
提到大模型,多数人的第一印象就是“能写会画”,这背后的核心技术就是AIGC。无论是日常用ChatGPT写代码、写文案,还是用AI生成图片视频,本质上都是AIGC能力的体现。
1.1 单模态
我们最早接触的大模型能力,大多是“单模态”的。比如用ChatGPT进行对话,输入一段文字提示(Prompt),模型输出一段匹配的文字回复,这就是典型的“文生文”。
这种让AI自动生成人类常见内容的技术,就是AIGC。百度百科对AIGC的定义是:
AIGC(Artificial Intelligence Generated Content)——生成式人工智能,是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。
用更通俗的话讲:AIGC就是让AI代替人类完成“内容创作类工作”,比如写文章、编代码、做文案等。而单模态的核心特点,就是“输入”和“输出”的内容类型一致,比如都是文本、都是图片(早期的图生图工具也属于单模态)。单模态。
1.2 多模态
随着AI的进化,不只是文生文,像文生图、图生文、文生视频、图生视频等也都逐渐支持了,而这种支持多种类型消息的,就被称为多模态。比如现在的GPT-5。而这些多模态模型,才是真正让AI从工具进化成助手的关键。
AIGC不管单模态还是多模态,有两个天生的限制:
- 不具备实时性:LLM是离线训练的,一旦训练完成后,它们无法获得新的信息。因此,它们无法回答训练数据时间点之后发生的事件,比如“今天的最新新闻”。
- 不会使用工具:最初的AIGC只可以从现在的知识库中获取内容,而不会查询最新的信息,也不能调用API。
因此,这就引出了两个技术方向,一个叫RAG,一个叫Function Call。
1.3 RAG 技术
RAG(Retrieval-Augmented Generation,检索增强生成) 技术,它是一种人工智能(AI)框架,结合了信息检索和生成式语言模型的能力,以提高响应的准确性和相关性。
核心思想:当 LLM 需要回答一个问题或生成文本时,不是仅依赖其内部训练时学到的知识,而是先从一个外部知识库中检索出相关的信息片段,然后将这些检索到的信息与原始问题/指令一起提供给LLM,让LLM基于这些最新、最相关的上下文信息来生成更准确、更可靠、更少幻觉的答案。
通俗的讲:原来模型靠死记硬背,现在它成了会“看资料答题”的开卷考试了。
RAG的工作原理:
- 检索(Retrieval): 系统首先识别用户查询中的关键词,并使用一个检索模型在大型数据集(如文档库、数据库或互联网)中查找与查询最相关的文本片段。
- 增强(Augmented): 检索到的信息被整合到原始的用户提示(prompt)中,为语言模型提供额外的上下文信息。
- 生成(Generation): 大型语言模型接收到增强后的提示,并利用这些检索到的事实信息来生成一个更丰富、更准确且与用户需求更贴切的回答。
这是原始RAG最经典的一张图了,当然后续还有进阶RAG和高级RAG,这块单独还能出一篇,为了有些新手看的没那么复杂,老周这里把后面两个屏蔽掉了。无非在检索前做些优化(查询路由、查询重写、查询扩展)、检索后优化(重排序、过滤、聚合)。
假如我想查询现在的天气?RAG只会根据现在的资料与知识来回答现在的天气,但天气是实时变化的,如何才能做到真正的查询最新的天气呢?
接下来就轮到**Function Calling(函数调用)**出场了。
1.4 Function Calling
Function Calling就是让模型具备调用工具的能力
在日常对话中,大模型通常只需返回文字答案。但当用户提出诸如“帮我查一下明天北京的天气”这类超出模型内置知识范围的问题时,就需要借助 Function Calling,即让 AI 调用外部工具来完成任务。
Function Calling 的核心作用在于让模型具备以下能力:
- 判断当前问题是否需要使用工具
- 自动提取参数,并以结构化 JSON 形式生成调用指令
- 将调用交由程序执行,并接收返回结果,用于后续生成回复。
举个栗子:
“我明天要去杭州旅游,请帮我查天气”
传统的LLM:
对不起,我只能提供截至2025年10月的信息。
支持RAG的模型:
明天北京24℃,小雨。(它查了资料,但没动手)
支持Function Calling的模型:
它判断你这个请求,需要调用一个叫获取天气的函数,然后自动生成参数“city=杭州”,调用完天气API -> 拿到结果 -> 生成回复:“明天杭州24℃,小雨,建议带伞”。
本质上,大模型通过自然语言理解用户意图:要完成什么任务、需要哪些信息。它会自动从对话中提取出关键参数。随后,用户的程序可根据这些参数调用对应的函数完成任务,并将执行结果返回给模型,由模型生成最终回复。
因此,Function Calling是AI走向智能体的关键。
2、智能体Agent
接下来我们来说一说传说中的“人工智能——智能体Agent。
前面咱们说了,Function Calling让模型拥有了“动手能力”。但是你会发现,现实世界的任务,往往不是一句话、调一次函数就能搞定的。
比如说你问它:我十一想自驾从上海去深圳旅游,帮我规划下出行方案。一个聪明的AI应该怎么做?理想流程可能是这样的:
- 查深圳十一当天的天气(看是否适合出行)
- 查从上海到深圳的高速路况
- 查加油站分布和服务区情况
- 安排中途住宿
- 综合输出一份旅游行程建议
可以理解成:它会思考、规划、决策、执行,真正具备了“完成任务”的闭环能力。
通过一张Agent流程图展示如下:
并且,这整个流程可以重复多轮,直到目标完成。
以“十一从上海自驾去深圳旅游为例”,它可能经历这样的Agent执行链:
- 查询天气→如果有雨,提醒注意安全
- 查询路线→如果太远,中途加一站住宿
- 住宿安排→查附近酒店并给出建议
- 最终输出一个可执行的旅游计划
这就是Agent的特性:不是你一步步告诉它怎么干,而是它自己规划该怎么干,直接给你最终的规划和结果。
但是各家厂商大力发展Agent的同时,各自有各自的标准,当Agent越来越多,调用的工具越来越多、系统越来越复杂的时候,如何让模型可以按照统一的标准,低成本地接入更多工具呢?
答案就是:MCP协议!
3、MCP
3.1 什么是 MCP
MCP模型上下文协议(Model Context Protocol,简称MCP)是一个由Anthropic在2024年11月25日开源的一个开放的、通用的、有共识的协议标准。
Anthropic公司是由前OpenAI核心人员成立的人工智能公司,其发布的Claude系列模型是为数较少的可以和GPT系列抗衡的模型。
3.2 为什么需要MCP
MCP协议旨在解决大型语言模型(LLM)与外部数据源、工具间的集成难题,被比喻为“AI应用的USB - C接口”。
类比来看,不同的AI助手就像不同的电子设备,以前每个设备需要不同的数据线连不同的外设(比如老式手机数据线各不相同),而MCP提供了一个统一的细窄接口,让AI能够即插即用各种外设。例如,通过MCP,一个AI助手今天可以连U盘(数据库),明天插打印机(邮件系统),后天接显示器(报告生成)——接口都一样,只是功能不同。就像USB-C让我们少了无数转换头和线缆,MCP也让AI集成少了无数专有API和脚本。对于终端用户来说,这意味着AI助手将变得更加多才多艺且使用方便,因为背后复杂的连接都被这个看不见的"USB-C"标准屏蔽掉了。
在 MCP 协议没有推出之前:
- 智能体开发平台需要单独的插件配置和插件执行模型,以屏蔽不通工具之间的协议差异,提供统一的接口给 Agent 使用;
- 开发者如果要增加自定义的工具,需要按照平台规定的 http 协议实现工具。并且不同的平台之间的协议可能不同;
- M×N 问题”:每新增一个工具或模型,需重新开发全套接口,导致开发成本激增、系统脆弱;
- 功能割裂:AI 模型无法跨工具协作(如同时操作 Excel 和数据库),用户需手动切换平台。
没有标准,整个行业生态很难有大的发展,所以 MCP 作为一种标准的出现,是 AI 发展的必然需求。
总结:MCP 如何重塑 AI 范式:
3.3 MCP的核心原理和技术架构
3.3.1 核心架构
MCP采用客户端-服务器的分布式架构,它将 LLM 与资源之间的通信划分为三个主要部分:客户端、服务器和资源。客户端负责发送请求给 MCP 服务器,服务器则将这些请求转发给相应的资源。这种分层的设计使得 MCP 协议能够更好地控制访问权限,确保只有经过授权的用户才能访问特定的资源。官方架构图如下:
- MCP Host(主机应用):Hosts 是指 LLM 启动连接的应用程序,像Cursor、Claude、Desktop、Cline 这样的应用程序。
- MCP Client(客户端):客户端是用来在 Hosts 应用程序内维护与 Server 之间 1:1 连接。一个主机应用中可以运行多个MCP客户端,从而同时连接多个不同的服务器。
- MCP Server(服务器):独立运行的轻量程序,通过标准化的协议,为客户端提供上下文、工具和提示,是MCP服务的核心。
- 本地数据源:本地的文件、数据库和 API。
- 远程服务:外部的文件、数据库和 API。
这种架构下,AI主机通过MCP客户端同时连接多个MCP服务器,每个服务器各司其职,提供对一种数据源或应用的标准化接入。这样设计有几个好处:一是模块化,增加或移除某个数据源只需启用或停用对应的服务器,不影响AI主体或其他部分;二是解耦,AI模型与具体数据源实现隔离开,通过协议交互,不直接依赖数据源的内部细节;三是双向通信,不仅AI可以请求数据源,某些情况下数据源也能要求AI执行操作或生成内容,从而支持更复杂的交互流程。
4.3.2 工作流程
- 初始化连接:客户端向服务器发送连接请求,建立通信通道。
- 发送请求:客户端根据需求构建请求消息,并发送给服务器。
- 处理请求:服务器接收到请求后,解析请求内容,执行相应的操作(如查询数据库、读取文件等)。
- 返回结果:服务器将处理结果封装成响应消息,发送回客户端。
- 断开连接:任务完成后,客户端可以主动关闭连接或等待服务器超时关闭。
4.3.3 通信方式
MCP定义了一套基于JSON-RPC 2.0的消息通信协议。核心特点如下:
- 传输灵活:原生支持两种传输方式——进程管道的STDIO(本地场景)和SSE+HTTP POST(网络通信),同时允许开发者自定义其他传输通道。
- 消息透明:采用纯JSON格式封装三种消息类型——请求(带唯一ID)、响应(含结果/错误)和通知(无回复)。每条消息包含方法名和参数,类似函数调用,直观表达"执行操作/获取数据"等行为。
- 开发友好:相比二进制协议(如gRPC),JSON消息可人工阅读,配合结构化日志更易调试。协议层自动处理请求响应匹配、错误传递和并发管理,开发者只需关注业务逻辑。
关键机制 – “Primitives”(原语)概念:MCP将AI与外部系统交互的内容抽象为几类原语,以此规范客户端和服务器各自能提供的功能。
MCP通讯模式:
- STDIO(Standard Input and Output):是最基本的输入输出方式,广泛应用于命令行工具、脚本编程以及本地调试过程中。它通过标准输入、输出和错误流来进行数据的传输。
- SSE(Server - Sent Events):是一种基于HTTP协议的数据流传输方式,主要用在远程服务上,Client使用SSE与Server进行通讯,特别适合需要持续更新的实时场景。
- Streamable HTTP:是一种基于HTTP协议的流式传输技术,专门用于大文件(如视频、音频)的分段传输。与SSE不同,Streamable HTTP允许文件在传输的同时被处理,使客户端可以边接收数据边处理,避免等待整个文件加载完成。
MCP服务器可以提供三种原语:
- Prompts(提示):预先编写的提示词或模板,相当于一段指导性文字片段,可以插入到模型的输入中去影响其行为。例如服务器可以提供一个"代码审查提示模板",供模型在阅读代码时使用。
- Resources(资源):结构化的数据或文档内容,可供客户端读取并提供给模型作为上下文。例如从数据库查询到的一条记录、用户的笔记文档内容等,都是资源类型。资源类似于"只读文件",模型可以请求某个资源,服务器会返回相应的数据内容。
- Tools(工具):可以被模型调用的可执行操作或函数。这是MCP最强大也最具互动性的部分,模型可以要求服务器执行某个工具函数来获取信息或改变外部状态,比如调用"发送邮件"工具发送一封邮件,调用"查询天气"工具获取天气数据等。由于工具调用可能带来副作用和安全风险,MCP规定模型调用工具必须经由用户批准后才执行。换言之,工具就像模型可用的"按键",但每次按键需要真人确认,避免模型滥用外部操作权限。
MCP客户端提供两种原语能力用于辅助服务器完成复杂任务:
- Roots(根):这是一种由客户端提供的文件系统入口或句柄。服务器可以通过Root来访问客户端这侧的本地文件或目录内容。例如客户端可以授权服务器读取某个文件夹(作为Root),那么服务器就能代表模型浏览那个文件夹下的文件内容(通常仍以资源形式提供给模型)。Roots机制确保服务器只能访问经授权的本地数据范围,增强安全性。
- Sampling(采样):这一机制允许服务器向客户端发起请求,要求客户端这侧的LLM模型生成一段文本(即一次补全/推理)。简单说,服务器也可以"反过来"调用模型,让模型基于一些额外提示执行推理。Sampling可以用于构建多轮交互的智能Agent:服务器在执行某工具过程中,发现需要模型进一步推理决定下一步时,就可以用Sampling请求模型产出结果,再继续后续操作。不过Anthropic也强调应谨慎使用这一机制,始终保持人类在环监督,以避免AI代理失控循环调用模型。Sampling机制并非所有MCP服务器均支持,需依赖客户端实现。
通过上述原语分类,MCP清晰地定义了模型与外部交互的意图类型。例如,让模型获取一段参考资料应该作为Resource提供,而不是混同于调用Tool;又如要求模型执行某操作就用Tool明确表示。这样的设计使AI系统的上下文管理更结构化:模型知道某段信息是只读资料还是可执行操作,用户也能对不同类型请求进行针对性地审批或监控。这比起简单地给模型一个隐式"工具插件"要透明得多。Anthropic的开发者指出,他们最初也考虑过是否把所有交互都当作"工具调用"统一处理,但最终认为Prompt和Resource这两类原语有其独特意义,能表达不同用途的功能,因此保留了多元的原语概念。
4.3.4 MCP现状及问题
- 问题1:MCP服务的配置,开关通常需要手动操作,使用方式还不够智能,如果开启大量的MCP服务,客户端如果第一次将所有工具信息都发给大模型让大模型来抉择,会浪费大量Tokens。
- 问题2:MCP只是解决了协议的问题,工具的稳定性很重要,调用工具时服务不可用非常影响用户体验。应该有个工具可用性检测机制,不可用及时下线。
- 问题3:现在MCP服务的封装主流还是前端框架和Python,Java来封装MCP似乎不太方便或者说上手门槛略高。
这几个问题留给大家去思考,好了,今天就讲到这,我们下期再见。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
适用人群
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。