目录
一、人工智能的发展脉络:从规则到学习
(一)人工智能(Artificial Intelligence, AI)
(二)机器学习(Machine Learning, ML)
1. 监督学习
2. 无监督学习
3. 强化学习
(三)深度学习(Deep Learning, DL)
(四)生成式人工智能(Generative AI)
二、大模型的出现:基础模型时代的开启
三、大模型为什么“好用”
(一)自然语言成为统一入口,显著降低使用门槛
(二)通用模型显著缩短 AI 应用交付周期
(三)知识库检索 + 工具调用,使模型“可控、可用、可落地”
(四)从“模型工程”走向“能力编排”
四、大模型是如何训练出来的
(一)预训练(Pre-training):学会“语言本身”
(二)监督微调(SFT):学会“听懂人类在问什么”
(三)基于人类反馈的强化学习(RLHF):学会“什么回答更好”
五、大模型的核心特征
六、大模型的主要类型
(一)大语言模型(LLM)
(二)多模态大模型
结语:从技术能力到产业基础设施
参考资料与延伸阅读
干货分享,感谢您的阅读!
过去十余年,人工智能从实验室研究逐步走向产业核心,而“大模型”的出现,则标志着这一领域进入了全新的发展阶段。要真正理解大模型的技术价值与应用潜力,有必要从人工智能的整体演化路径出发,厘清人工智能、机器学习、深度学习与生成式 AI 之间的内在关系。
一、人工智能的发展脉络:从规则到学习
当我们今天谈论大模型时,往往会被其惊人的对话能力和生成效果所吸引,但任何一次看似“突然”的技术爆发,背后都必然有一条长期积累的演进路径;理解大模型之前,先回到人工智能的发展起点,梳理 AI、机器学习与深度学习之间的关系,是避免“只见结果、不明原理”的关键一步。
(一)人工智能(Artificial Intelligence, AI)
人工智能是一门致力于研究如何让机器表现出类似人类智能行为的交叉学科,其目标并非简单地“自动化”,而是让计算机具备感知、理解、推理、学习和决策的能力。
从学科构成来看,AI 并非单一技术,而是计算机科学、统计学、数学、语言学、神经科学乃至哲学与心理学的综合体。
早期 AI 主要依赖人工规则和符号推理,而这一范式在复杂现实世界中很快暴露出扩展性和鲁棒性不足的问题。
(二)机器学习(Machine Learning, ML)
机器学习的提出,标志着 AI 从“人工编程规则”向“数据驱动学习”的关键转变。其核心思想是:不显式编写规则,而是让模型从数据中自动学习规律。
根据学习方式的不同,机器学习通常分为三类:
1. 监督学习
监督学习使用带有明确标签的数据进行训练,模型通过反复学习输入特征与目标结果之间的对应关系,逐步逼近正确的映射函数。常见应用包括垃圾邮件识别、图像分类、信用评分等。这类方法效果通常较为稳定,但高度依赖高质量标注数据,数据获取和标注成本较高。
2. 无监督学习
无监督学习在训练过程中不提供明确的标签信息,模型需要自行从数据中发现潜在结构或相似性模式。它更侧重于“理解数据本身的分布特征”,常用于聚类分析、异常检测和特征降维等场景。其结果往往用于辅助分析或作为后续建模的基础,而非直接给出明确答案。
3. 强化学习
强化学习强调与环境的持续交互,模型通过试错方式,根据行为所获得的奖励或惩罚信号不断调整策略目标。它并不直接学习输入到输出的映射,而是学习在不同状态下应采取的最优行动,常见于游戏对弈、路径规划和自动控制等问题,对环境建模和反馈机制依赖较强。
这一阶段,模型的整体能力仍然高度依赖于人工特征设计与问题建模方式,算法效果在很大程度上取决于工程经验和领域知识的积累。
(三)深度学习(Deep Learning, DL)
深度学习是机器学习的重要分支,其本质突破在于:通过多层神经网络自动学习特征表示,从而显著降低了对人工特征工程的依赖。
以卷积神经网络(CNN)、循环神经网络(RNN)和 Transformer 为代表的模型架构,使得计算机在图像识别、语音识别、自然语言处理等领域实现了跨越式进展。模型不再只是学习“规则”,而是学习到高度抽象、层次化的表示能力。
可以说,深度学习为后续大模型的诞生奠定了坚实的技术基础。
(四)生成式人工智能(Generative AI)
生成式 AI 是深度学习在内容生成方向上的集中体现,其目标不仅是“理解”,更是“生成”。
通过在海量未标注数据上进行预训练,模型逐步掌握语言、图像、音频等模态中的统计规律,并具备在给定上下文下生成新内容的能力。ChatGPT、Stable Diffusion 等产品的爆发,正是这一技术路线成熟的结果。
二、大模型的出现:基础模型时代的开启
如果说深度学习解决了“机器如何看、如何听、如何理解”的问题,那么大模型真正回答的是:“机器是否可以在足够通用的层面上,学会像人一样使用知识?”从Foundational Models概念的提出到 ChatGPT 的出圈,大模型的登场并非偶然,而是一次技术、算力与数据同时成熟后的集中释放。
2021 年,斯坦福大学提出Foundation Models(基础模型)概念,用以描述一类在超大规模数据上训练、具有强泛化能力、可适配多任务的通用模型。这一概念,后来被广泛称为“大模型”。
2022 年 11 月,ChatGPT 的发布,使大模型从学术与工程圈层走向大众视野。其在对话理解、文本生成与推理能力上的表现,证明了“规模 + 数据 + 算法”所带来的非线性能力跃迁。
随后,国内外厂商密集入场,大模型进入快速迭代阶段。从百度文心一言、阿里通义千问,到华为盘古、腾讯混元,产业界围绕算力、数据、模型架构和应用生态展开了全面竞争。
以阿里云通义千问(Qwen)为代表的模型体系,已从单一语言模型演进为支持文本、图像、音频等多模态能力,并具备工具调用与 Agent 行为能力的综合模型平台。
三、大模型为什么“好用”
与传统 AI 系统相比,大模型在“好用”上的本质差异,并不只是模型能力更强,而在于其交互范式与系统架构发生了根本变化。
在传统 AI 应用中,每一个业务场景往往都对应一套独立的模型与规则体系:
文本分类、意图识别、信息抽取、推荐排序等任务通常需要分别设计特征、训练模型、部署服务,并在业务变化时持续维护。这种“任务驱动型 AI 架构”在复杂场景下会迅速推高研发与运维成本。
而大模型引入了一种统一能力接口(Unified Intelligence Interface)的思路:
用户只需通过自然语言描述需求;
模型即可自动完成意图理解、知识调用、逻辑推理与内容生成;
不再需要为每一个具体任务单独构建模型或编写大量规则。
从工程视角看,这意味着“AI 能力开始从‘功能组件’转变为‘基础能力层’”。
(一)自然语言成为统一入口,显著降低使用门槛
自然语言是人类最熟悉、成本最低的交互方式。大模型通过大规模预训练,使模型能够在无需显式结构化输入的情况下,理解用户真实意图。
根据数据(Kong Inc.Statistics: Trends)在 2023–2024 年发布的企业 AI 应用调研结果显示:
在引入大模型后,企业内部 AI 工具的非技术人员使用率提升约 2–3 倍;
原本需要产品经理或算法工程师参与配置的任务,有30%–50% 可由业务人员直接通过 Prompt 完成。
这意味着 AI 不再是“技术部门专属能力”,而开始向业务一线下沉。
(二)通用模型显著缩短 AI 应用交付周期
在传统模式下,一个 NLP 项目从需求评审到上线,往往需要经历数据标注、模型训练、效果评估和多轮迭代,周期通常以“月”为单位。
而在大模型架构下:
通用模型已经具备语言理解与生成的基础能力;
通过少量 Prompt 设计或轻量微调,即可适配新任务;
多数通用场景可在“天级甚至小时级”完成验证。
根据公开的企业实践案例amplework统计:
AI 应用的首版交付周期平均缩短 40%–70%;
PoC(概念验证)失败成本显著下降,使得企业更愿意尝试 AI 场景创新。
(三)知识库检索 + 工具调用,使模型“可控、可用、可落地”
单纯依赖模型参数并不足以支撑企业级应用的可靠性,因此,大模型平台通常会引入RAG(检索增强生成)与工具调用机制。
以阿里云百炼等平台为例:
模型可在生成前动态检索企业私有知识库,减少“幻觉”;
可通过函数调用或 API 调度,直接操作业务系统;
输出结果具备可追溯的数据来源与执行路径。
行业数据显示,在引入知识库增强后:
专业问答场景的准确率可提升 20%–40%;
模型输出中“不可验证内容”的比例显著下降;
AI 应用在合规、审计与安全场景中的可用性明显增强。
(四)从“模型工程”走向“能力编排”
更重要的是,大模型让 AI 系统的设计重心,从“训练更好的模型”转向“如何编排智能能力”。
开发者关注的不再是:
这个任务用什么模型?
而是:
这个业务流程中,模型需要在哪些节点参与决策与生成?
这也直接推动了AI Agent、工具链编排、多模型协同等新型应用架构的快速发展。
大模型之所以“好用”,并非因为它替代了所有传统 AI 技术,而是因为它极大地压缩了从“需求”到“智能能力”的距离,使 AI 真正成为一种可被广泛调用的基础设施能力。
四、大模型是如何训练出来的
从工程角度看,大模型的能力并不是一次性“训练完成”的结果,而是通过分阶段、逐层对齐人类需求的方式逐步塑造而成。这一过程通常可以拆分为三个相互衔接、各司其职的阶段:预训练、监督微调和基于人类反馈的强化学习。
(一)预训练(Pre-training):学会“语言本身”
预训练是大模型训练中规模最大、成本最高的阶段。此阶段使用的是海量、多样化的无标注数据,包括网页文本、书籍、代码、多模态内容等。
在技术实现上,模型的核心目标通常是下一个 token 预测,也就是在给定上下文的情况下,预测最可能出现的后续内容。通过这种方式,模型逐步学习到:
语言的基本结构与语法规律;
词语之间的统计关联与上下文关系;
世界知识的隐式表示(以概率形式存在于参数中)。
需要强调的是,在这一阶段,模型并不理解“问题”和“回答”的语义角色,它只是学会了如何在语料分布上生成“看起来合理”的内容,因此更擅长补全文本,而非执行指令。
(二)监督微调(SFT):学会“听懂人类在问什么”
监督微调的目标是让模型从“会说话”转变为“会按要求回答”。这一阶段会引入人工构造或筛选的高质量指令数据,数据形式通常为“问题—回答”对。
通过 SFT,模型开始学习:
如何识别指令、问题、约束条件;
如何在回答中遵循上下文和任务目标;
如何在特定领域(如法律、金融、技术支持)中输出更专业的内容。
从效果上看,经过 SFT 的模型已经能够完成基本对话和任务型交互,但其输出仍可能在安全性、价值取向或表达方式上不完全符合人类预期。
(三)基于人类反馈的强化学习(RLHF):学会“什么回答更好”
RLHF 的核心作用是对模型输出进行偏好层面的优化。在这一阶段,模型会针对同一问题生成多个候选回答,由人类标注人员对这些回答进行排序或评分。
通过构建“奖励模型”,并使用强化学习方法进行优化,模型逐渐学会:
哪类回答更有帮助、更清晰;
哪类回答应当避免(如不安全、不礼貌、不合规内容);
如何在多种可行回答中选择“人类更喜欢的那一个”。
这一阶段并不会引入大量新知识,而是对已有能力进行行为约束与风格对齐,使模型在真实使用场景中更加可靠、可控。
预训练负责“打基础”,SFT 负责“对齐意图”,RLHF 负责“贴近人类偏好”。三者相互配合,构成了当前大模型训练中最成熟、最稳定的工业化流程。
五、大模型的核心特征
综合来看,基础模型通常具备以下特征:
参数规模巨大:支撑复杂知识与能力的统一建模;
迁移能力强:可通过微调或少样本学习适配多任务;
预训练数据广泛:覆盖多语言、多领域、多模态;
计算资源消耗高:对算力、存储与工程体系提出更高要求。
六、大模型的主要类型
随着模型能力和应用场景的不断拓展,大模型并非单一形态,而是逐渐分化为不同类型,以适应不同的任务需求。按照模型主要处理的信息形态和能力侧重,目前的大模型可以概括为以下两大类。
(一)大语言模型(LLM)
大语言模型是当前发展最成熟、应用最广泛的大模型类型,核心能力集中在自然语言的理解、推理与生成上。其输入和输出主要以文本为主,模型通过学习海量语料,能够掌握语言结构、上下文语义以及隐含的世界知识。
从能力层面看,LLM 通常具备以下特点:
能理解复杂指令,并根据上下文进行多轮对话;
能完成逻辑推理、总结归纳和结构化表达;
在代码、数学、技术文档等特定领域表现出较强的泛化能力。
在工程实践中,大语言模型已被广泛应用于智能客服、知识问答、内容生成、文档处理、代码辅助开发等场景,是当前企业落地 AI 能力的首选模型类型。
典型代表包括 OpenAI 的 GPT 系列、Google 的 Gemini 语言模型以及阿里云的通义千问等。
(二)多模态大模型
多模态大模型在语言能力基础上,进一步扩展了对图像、音频、视频等多种信息形式的统一建模能力。与传统“单模态模型拼接”的方案不同,多模态模型能够在同一模型空间中建立不同模态之间的语义关联。
从能力上看,多模态大模型不仅能“看”和“听”,还能够:
将视觉或音频信息与语言语义进行联合理解;
在不同模态之间进行推理与生成;
支持跨模态检索与内容创作。
在应用层面,多模态大模型支撑了视觉问答、图像描述生成、图文检索、文生图、语音识别与语音合成等场景,并逐步向视频理解与生成方向演进。
相较于纯语言模型,多模态大模型对数据规模、算力和工程架构提出了更高要求,但也为更自然、更接近人类感知方式的智能系统奠定了基础。
大语言模型解决“如何理解和生成语言”的问题,而多模态大模型则进一步探索“如何统一理解现实世界中的多种信息形式”。两者并非相互替代,而是在不同应用层级上相互补充,共同构成当前大模型技术体系的核心。
结语:从技术能力到产业基础设施
大模型并非简单的“更大模型”,而是一种AI 技术范式的转变:它正在成为类似操作系统或数据库一样的基础能力平台。
随着模型能力、推理成本与工程化水平的持续演进,大模型将不再只是“展示型技术”,而是逐步融入企业核心业务流程,成为新一代数字基础设施的重要组成部分。
参考资料与延伸阅读
Stanford CRFM –On the Opportunities and Risks of Foundation Models
https://crfm.stanford.eduOpenAI –GPT-4 Technical Report
https://openai.com/researchGoogle Research –Attention Is All You Need
https://arxiv.org/abs/1706.03762阿里云通义千问官方文档
https://help.aliyun.comSutton & Barto –Reinforcement Learning: An Introduction
https://edu.aliyun.com/course/3126500/lesson/342500628?spm=a2cwt.28120015.3126500.6.163616baORVA3S