本文系统梳理AI领域核心概念框架,清晰拆解人工智能、机器学习、神经网络、深度学习的层级包含关系,详细解析MLP、CNN、RNN、GNN、Transformer五大基础神经网络架构的原理与应用场景。同时从技术范式、学习方法、应用任务三大维度构建AI知识图谱,帮小白快速入门、程序员夯实基础,为后续大模型学习筑牢根基。
核心概念梳理
刚接触AI的同学,大概率会被层出不穷的专业名词绕晕——人工智能、机器学习、深度学习、神经网络……这些概念到底是什么关系?是并列存在还是包含从属?这是入门AI的第一个核心难点。下面我们通过“概念定义+反例验证”的方式,用可视化逻辑把这些关系讲透。
技术分类
人工智能(AI:Artificial Intelligence)作为顶层概念,泛指一切旨在模仿或超越人类智能的人造技术、产品及其理论体系。它区别于天然的人脑智能,也不同于仅能执行预设指令的传统自动化工具。而机器学习是AI的一个子集,目前看也是最大的一个子集。机器学习包含了神经网络,神经网络又包含了深度学习。今天我们耳熟能详的卷积神经网络(CNN),循环神经网络(RNN)、图神经网络(GNN)、自注意力机制Transformer等都属于深度学习的神经网络架构。今天火出圈的大语言模型(LLM)就是基于Transformer架构设计和训练出来的解决自然语言处理(NLP)任务的模型。
但是,当出现两个概念的包含关系,比如 A 包含了 B时,最好举出一个属于A,但不属于B的例子。否则图会显得空洞,也会让人困惑。比如上图中,为什么不是 AI = 机器学习 = 神经网络 = 深度学习呢?下面我们就对每个包含关系,举出一个属于A但不属于B的反例出来。
首先是属于人工智能,但不属于机器学习的内容。其实机器学习出现之前,AI领域已经发展出众多的研究方向和方法论,它们构成了早期AI的基础,包括:启发式搜索与规划、知识表示与推理(如知识图谱、语义推理)、形式化验证、进化算法(如遗传算法)、以及基于规则的专家系统等。这些技术在当时各有其特定的应用领域,展现了一定的智能水平并解决了实际问题。其中最具影响力的当属基于规则的专家系统(Rule-Based Expert Systems)。作为符号主义 AI 的代表,这类系统通过人工构建的知识库与推理机制模拟人类专家的决策过程,广泛应用于医疗诊断辅助、工业系统配置与故障诊断、信贷风险评估、地质勘探等专业领域。尽管普通大众接触较少,但它们在当时被誉为“可以思考的程序”,曾在多个行业取得显著成果,开启了人工智能技术走向实用化的序幕。但是早期AI普遍受限于对明确规则的依赖、处理复杂现实世界问题的灵活性不足、以及知识获取与表示的困难。虽然它们在特定领域有效,但对整个社会的触动有限。直到机器学习的出现,带来了范式转变。
其次是属于机器学习,但不属于神经网络的例子。机器学习的核心在于让算法从数据中自动学习模式而非依赖预先设置的规则。支持向量机(SVM)就是从带有类别标签的训练数据中自动学习一个用于分类的决策函数(模型),做到将数据正确分类且间隔最大。这就是典型的机器学习算法,但和神经网络没有关系。
最后是属于神经网络,但不属于深度学习的例子。神经网络的全称是 Artificial Neural Network ,人工神经网络,现在都简称神经网络(NN),是受大脑的生物神经网络启发设计的:
(图片出处:https://en.wikipedia.org/wiki/Neuron)
大脑每一个神经元的细胞,会从它的树突中,接收来自其他细胞的若干信号作为输入,然后经过这个细胞的处理之后,从轴突中去输出若干个信号。
单层感知机(SLP:Single-Layer Perceptron)模拟了生物神经元的这种结构:
输入:如同生物神经元的树突接收信号,SLP的输入单元接收外部输入数据(图中的Xn)
加权求和(整合信号):如同生物神经元对输入信号进行整合,SLP将每个输入 “Xi” 乘以一个对应的权重Wi 进行求和,再加上一个偏置 b:
激活函数(产生输出):如同生物神经元在整合信号达到阈值后才会“兴奋”产生动作电位,SLP将加权和 z 输入到一个激活函数中。这个函数根据z是否超过某个阈值产生最终的输出:
“ŷ = f(z) = 1” 如果 “z >= 0”
“ŷ = f(z) = 0” 或 “-1”(取决于约定) 如果 “z < 0”
输出:这就是神经元的最终输出信号(ŷ)。
当然单层感知机也可以有多个神经元,以不同的权重,同时处理同一组输入信号,产生多个输出,可以对应多分类问题。1个或多个神经元逻辑上构成一层神经网络,接受输入,计算后产生输出,是最简单的神经网络模型。因为只有一层,所以不算深度学习。
有单层感知机(SLP),自然有多层感知机(MLP:Multi-Layer Perceptron)。
MLP由输入层,输出层和1个或多个隐藏层构成。层与层之间用激活函数链接。MLP通过隐藏层和非线性激活函数(如 ReLU),理论上可逼近任意连续函数。MLP因为组合了多层神经网络,属于最简单的深度学习基础网络架构。可独立用于结构化数据分类/回归等简单任务,也可作为子模块,嵌入到其他复杂网络架构中。比如在 Transformer 架构中,MLP 就被广泛用于前馈网络(FFN)层
我们加入如上内容后,就有了下图:
从机器学习到深度学习,这个脉络可以认为是按AI的技术发展路径来划分的:
- 机器学习 (ML, Machine Learning):实现AI的核心途径:让系统从数据中自动学习模式和规律,无需显式编程所有规则。如支持向量机 (SVM)
- 神经网络(NN,Neural Network):ML的一种具体实现范式:模拟生物神经元连接,通过权重调整,学习输入-输出映射。如单层感知机 (Perceptron)
- 深度学习(DL,Deep Learning):神经网络的强化形态:使用多(深)层非线性变换神经网络,自动学习数据的层次化特征表示。
这个发展路径上,深度学习是最大的突破,所以在图中也占了最大的面积。深度学习的"深度"特指神经网络的层级深度,其核心在于多层非线性变换结构。这一架构突破使得模型能够自动学习数据的多层次抽象表示,推动了现代AI技术的革命性发展。
深度神经网络具体怎么个深法,是有不同的姿势和结构的。上图中绿色部分,即是目前为止最基础的五种神经网络架构:
- 多层感知机(MLP:Multi-Layer Perceptron):深度学习最基础的网络架构,由全连接层与非线性激活函数堆叠而成。用于结构化数据的分类/回归任务,或作为其他架构的子模块
- 卷积神经网络 (CNN:Convolutional Neural Network) :在图像识别中提取空间特征取得了革命性成功;比如将人脸识别准确率提升至商用级,推动了安防、支付等场景的落地和普及。
- 循环神经网络 (RNN:Recurrent Neural Network) 及其改进型 LSTM(长短期记忆网络)/GRU(门控循环单元) :为处理时序数据(如语言)提供了有效机制。
- 图神经网络(GNN:Graph Neural Network):是一类专门用于处理图结构数据的神经网络。广泛应用于社交网络、知识图谱、分子结构等场景。
- Transformer 架构:自注意力机制(Self-Attention)并行化能力强且能建模长距离依赖。是当前预训练大模型(如 GPT、DeepSeek、Qwen等)采用的架构,正引领新一轮 AI 浪潮。
那么16年爆火的战胜人类围棋冠军的AlphaGo和22年爆火的文生图扩散模型(Diffusion Model)又应该在什么位置呢?
AlphaGo 是一个 “深度学习(CNN)+ 强化学习(RL)+ 树搜索” 的混合架构,针对围棋任务的一个人工智能解决方案,其核心构成包括:
- 策略网络 (Policy Net) 13 层卷积神经网络 (CNN),用来预测每一步棋的落子概率
- 价值网络 (Value Net) 14 层卷积神经网络 (CNN) + MLP全连接层,用于评估棋盘状态的胜负概率
- 蒙特卡洛树搜索 (MCTS) ,用与结合策略/价值网络进行决策推演。 这部分属于机器学习之外传统AI方法的搜索与规划范畴。
扩散模型是一类叫做生成模型的一个实现方式。生成模型 (Generative Models) 的目标是从数据分布中学习,从而能够生成新的、与训练数据相似的数据样本。这是一类重要的机器学习任务。生成模型有多种实现方法/框架,包括:
- 变分自编码器 (Variational Autoencoders, VAEs)
- 生成对抗网络 (Generative Adversarial Networks, GANs)
- 标准化流模型 (Normalizing Flows)
- 自回归模型 (Autoregressive Models)
- 扩散模型 (Diffusion Models)
在 Diffusion Models 出现之前,生成对抗网络(GAN:Generative Adversarial Network)架构是文生图/文生视频领域的主力。GAN的思路是通过对抗训练生成新数据,由生成器(Generator)和判别器(Discriminator)两部分组成:
- 生成器(G):学习生成逼真数据(如图像、文本),目标是“骗过”判别器。
- 判别器(D):学习区分真实数据与生成数据,目标是“识破”生成器。
两者由MLP、CNN、Transformer等基础网络架构组合而成,加入了独特的对抗训练机制。通过生成器和判别器的对抗训练,能够生成新的逼真数据。所以能够完成文生图、文生视频任务。
(Stable Diffusion架构,图片出处:https://arxiv.org/pdf/2112.10752)
而扩散模型 (Diffusion Models)走的是另一个路子,其核心思想是构建一个逐步向真实数据添加噪声的马尔可夫前向过程(破坏数据),然后训练神经网络学习逆向过程,从纯噪声中逐步还原数据。训练完成后,模型便可通过逆过程从随机噪声生成高质量样本。扩散模型需要依赖底层神经网络来搭建其网络架构。常用的底层神经网络包括CNN(用于图像,如U-Net)、Transformer(用于文本/图像/视频)。例如:图像扩散模型常用U-Net(一种包含跳跃连接的CNN)作为骨干网络。文本到图像扩散模型(如Stable Diffusion)则在其编码器和处理特征图的网络中大量使用了Transformer架构。用 Transformer 替代 UNet 的扩散模型架构又叫做 DiT(Diffusion Transformer)。扩散模型在高质量图像生成、文本到图像生成(text-to-image)和某些视频生成等领域取得了巨大突破,是目前最强大的生成方法之一。
在扩散模型 Diffusion Models 出现之后,很多原来用GAN的明星产品也都逐步转向了扩散模型。目前主流图片视频生成产品的技术架构:
| 产品名称 | 类型 | 核心技术特点 |
|---|---|---|
| DALL-E 系列 | 文生图 | CLIP文本编码 + 扩散生成;DALL-E 3全面采用扩散架构替代GAN |
| Stable Diffusion | 文生图 | 潜在扩散模型(Latent Diffusion),低维潜在空间操作提升效率 |
| Midjourney | 文生图 | 早期可能用了GAN,v5后基于扩散模型,艺术风格强化训练 |
| Sora | 文生视频 | 扩散Transformer(DiT),时空Patch联合建模 |
| Flux | 文生图 | 校正流(Rectified Flow)Transformer,线性化扩散路径 |
| 可灵(Kling) | 文生视频 | 扩散Transformer + 3D时空注意力,物理运动模拟 |
| 即梦AI | 文生图+视频 | GAN+扩散混合架构;自研Seaweed视频模型(扩散优化) |
AlphaGo、GAN、Diffusion Models 三者虽然先后出现在不同应用领域,解决不同的问题,但是都有一个共同特点,都是基于深度神经网络基础架构组合而成的应用架构。
| 框架 | 基础网络架构 | 核心创新 | 关键特点 | 代表应用 |
|---|---|---|---|---|
| AlphaGo/AlphaZero | CNN + MLP + MCTS | 神经网络与蒙特卡洛树搜索协同 | 优势:复杂决策能力;缺陷:依赖环境交互(高成本) | 围棋、策略游戏 |
| GAN | CNN / MLP / Transformer | 生成器与判别器对抗训练 | 优势:高质量单步生成;缺陷:模式崩溃、训练不稳定 | 图像生成(StyleGAN)、Deepfake |
| Diffusion Models | U-Net / Transformer | 多步噪声迭代优化 | 优势:高保真生成、训练稳定;缺陷:生成速度慢(需迭代) | 文生图(Stable Diffusion)、视频 |
加入AlphaGo、GAN和扩散模型之后,变成下图:
任务分类
以上AI的概念都是从技术角度来划分的。如果从AI应用领域的角度来划分,AI又分为如下应用任务:
- 自然语言处理(NLP:Natural Language Processing):让机器理解、生成和交互人类语言。
- 计算机视觉(CV:Computer Vision):让机器“看懂”图像和视频。核心任务有:图像分类、目标检测、图像分割、人脸识别、视频分析、3D重建等。
- 语音识别与合成(Speech Recognition & Synthesis):让机器“听懂”和“说出”人类语音。核心任务有:语音转文本(ASR)、文本转语音(TTS)、声纹识别、语音情感分析等
- 机器人学(Robotics)让机器在物理世界中感知、决策、执行任务。核心任务有:运动控制、SLAM(同步定位与地图构建)、多传感器融合等。专注于物理交互的处理。
- 决策与规划(Decision Making & Planning):让机器在复杂环境中进行序列决策。核心任务有:自动驾驶路径规划、游戏AI(AlphaGo)、资源调度等。专注于动作序列与环境反馈的处理
- 专⻔领域智能(Domain-Specific AI):解决特定垂直领域问题,常融合多个基础技术。典型方向有:推荐系统(Recommendation Systems):处理用户-物品交互数据(如电商、短视频)。生物信息学(Bioinformatics):基因序列分析、蛋白质结构预测。金融科技(FinTech):风险预测、量化交易等等。
我们加上最常见的 NLP 和 CV 任务,得到下图:
其中关于自然语言处理(NLP:Natural Language Processing)部分
- NLP任务在机器学习出现之前就有,主要依赖规则系统与符号方法。知识图谱技术,也能解决部分NLP问题
- 在Transform出现之前,RNN(包括LSTM/GRU)等,都曾用于解决NLP任务,但在捕捉长程依赖上存在瓶颈。
- Transform出现之后,立即成为现代NLP的核心架构,促成了现今大语言模型(LLM: Large Language Model)的爆发
- 扩散模型近年来也开始探索用于文本生成,其并行采样能力在特定条件下可提升生成效率,但仍处于实验探索阶段。
关于计算机视觉(CV:Computer Vision)部分
- 计算机视觉(CV)任务在卷积神经网络(CNN)出现之前,主要依赖于手工特征提取 + 传统机器学习方法
- CNN出现之后,将CV任务推向了新的高度,如 2015年的ResNet在ImageNet数据集的图像分类任务中首次超越了人类。
- GNN可应用于NLP和CV任务,GAN主要应用于CV任务
- 如今 Transform 架构的模型也大量用于CV任务了
总结
到此层次就比较清晰了,我们来做个总结:
从深度学习发展的递进关系看:机器学习-》神经网络-》深度学习。目前大部分力量都倾注于深度学习。
从深度学习神经网络基础架构看,逐步发展出了5种基础架构:
- 多层感知机(MLP,Multi-Layer Perceptron)
- 卷积神经网络(CNN,Convolutional Neural Network)
- 循环神经网络(RNN,Recurrent Neural Network)
- 图神经网络(GNN,Graph Neural Network)
- 自注意力机制(Self-Attention) Transformer
针对不同领域的数据特点和任务要求,对神经网络基础架构做各种组合,可以形成不同的应用架构,以解决具体领域中的具体问题。比如
- AlphaGO/AlphaZero
- 生成对抗网络(GAN)
- 扩展模型(Diffusion Models)
- 等等
在人工智能的发展历程中,不同类型的神经网络架构曾分别主导不同的任务领域。多层感知机(MLP)适用于结构化数据建模,卷积神经网络(CNN)在图像识别与处理任务中展现出卓越的性能,而循环神经网络(RNN)及其变体(如LSTM、GRU)曾长期主导自然语言处理与时间序列建模。然而,这些架构在模型泛化能力、可扩展性、以及跨模态迁移等方面均存在局限,限制了构建统一智能系统的可能。
自 Transformer 架构在 2017 年出世之后,其出色的并行处理能力、长距离依赖建模能力和高度可扩展性,使其迅速成为自然语言处理领域的主流架构,并逐步扩展到图像(Vision Transformer, ViT)、语音(SpeechT5, Whisper)、多模态(CLIP, Flamingo, Gemini)、以及决策智能(Decision Transformer, Gato, RT-2)等多个领域。当前,研究者正积极探索以 Transformer 为核心的「泛化架构」(Generalist Architecture),目标是构建能够在视觉、语言、语音、动作控制等多种任务间共享知识和模型参数的统一 AI 系统。这种趋势标志着人工智能正从「任务专用」向「通用智能」迈进,也为未来的多模态智能体、通用机器人、AI操作系统等方向奠定了技术基础。
机器学习范式
深度学习的深度,指神经网络的深度。那么深度学习的学习,就是指机器学习的学习了。有了深度的网络计算架构,如何从数据中学习知识,变为网络的参数(权重)呢? 这个学习范式大致有三种:
- 无监督学习:数据无标注,挖结构,重探索。揭示未知信息。
- 监督学习:数据有标注,学映射,重预测。需要大量标记数据。
- 强化学习:试错交互,学决策,重收益。强调智能体在环境中学习和适应以获得长期成功。
这三种方法是机器学习的基石,常结合使用。
无监督学习
无监督学习的核心概念在于使用的训练数据是无标签(无标注的),直接学习数据的内在特征
- 核心:使用无标签的数据进行训练。只有输入特征,没有预先定义的答案。
- 过程:算法探索数据内在结构、模式或关系,旨在发现隐藏的信息/结构。
- 目标:探索/挖掘。揭示数据中未知的分组、简化数据表示或找出异常。
- 典型任务:客户分群、异常检测、降维可视化、推荐系统(部分)、主题建模。
- 常见算法:K-Means 聚类、层次聚类、主成分分析 (PCA)、自编码器 (Autoencoders)、关联规则学习。
无监督学习的一个子类是自监督学习,相比传统无监督学习直接挖掘数据内在结构(如聚类中的相似性),自监督学习通过设计代理任务(Pretext Task) 从数据自身生成伪标签,例如:预测被遮盖的词(BERT)、图像补全(MAE)等。
大语言模型的预训练阶段,就是采用无监督学习的方式。模型通过大规模无标注文本学习语言的统计规律。如BERT采用“预测被遮盖的词”,GPT采用“预测下一个词”的方式,就属于无监督学习的特殊形式,实质是利用数据的内在结构作自标注,从而学习语言的通用表示能力(词汇、语法、浅层语义等)。
监督学习
监督学习的核心概念在于使用人工标注数据(对数据打标签)进行学习
- 核心:使用带标签的数据进行训练。标签即每个数据点对应的正确答案(如“猫”或“狗”、“房价”、“是否欺诈”)。
- 过程:算法学习输入数据(特征)到输出标签(目标)之间的映射关系:
- 目标:预测/分类。学习好的模型,用于预测新数据/未知数据的标签。
- 典型任务:图像分类、邮件过滤、房价预测、客户流失预测、疾病诊断。
- 常见算法:线性回归、逻辑回归、决策树、支持向量机 (SVM)、神经网络。
大模型在预训练之后,通常会进入指令微调阶段(也称为监督微调,Supervised Fine-Tuning,SFT)。该阶段使用人工标注的高质量“指令-回答”样本(如 {“指令”: “写一首诗”, “回答”: “…”})对模型进行微调,旨在教会模型理解人类指令的格式与意图,从而适应对话、创作、分析等下游具体任务。这就是典型的监督学习范式,监督性体现在:每个输入指令都对应一个明确的目标输出,训练目标是最小化模型输出与期望答案之间的差异。
强化学习
强化学习是学习体(如机器、算法)在环境中通过不断尝试行动,依据行动产生的奖励或惩罚信号,学习优化策略以最大化长期收益的机器学习范式 。
- 核心:学习体通过与环境交互、试错来学习。根据执行的动作获得奖励或惩罚。
- 过程:学习体观察环境状态 (State),选择执行动作 (Action),获得即时奖励 (Reward),目标是在长期中获得最大化累积奖励。
- 目标:学习最优决策/行为策略(Policy: “状态 -> 动作”)。
- 典型任务:游戏 AI (AlphaGo)、机器人控制、自动驾驶路径规划、股票交易策略、资源管理优化。
- 常见算法:Q-Learning、深度 Q 网络 (DQN)、策略梯度方法 (Policy Gradients)。
无监督学习就像自己看学习材料,你并不知道你学得对不对,只是试着发现材料内在的规律。监督学习就像刷例题,题目和答案都给了你,重点是学会举一反三解决问题的泛化能力。强化学习就像去实习,在真实的工作环境中试错提升,获得反馈,调整状态,还要做好长期规划才能干得好,满足实用期望。
RLHF
基于人类反馈的强化学习,RLHF(Reinforcement Learning from Human Feedback),核心原理是结合强化学习和人类偏好的反馈,使模型生成的内容更符合人类期望。RLHF 不是一个独立的学习范式,而是一个将“监督学习 + 奖励建模 + 强化学习”组合在一起的训练范式,属于一种训练流程或方法论。
传统的RLHF过程有如下几个步骤:
- 监督微调(Supervised Fine-Tuning, SFT):使用人类编写的高质量问答(prompt → response)对,通过交叉熵损失(Cross-Entropy Loss)对模型进行监督训练,让模型学会基础的对齐(alignment)能力
- 奖励模型训练(Reward Model Training):给模型多个回答(如两个响应 A 和 B),让人类标注“哪个更好”,用这些偏好数据训练一个奖励模型(通常是一个回归模型或排序模型),以建立一个可以模拟人类偏好的奖励函数(通常无法直接从环境中获得);这一步就是体现人类反馈的关键。因为人类反馈如果直接介入训练过程,训练就太慢了,不可能完成。所以先用人类反馈训练一个奖励模型,用这个奖励模型来代替人类反馈,这样就能自动化训练了。
- 强化学习优化:用奖励模型对模型行为(输出)打分,使用 PPO(Proximal Policy Optimization,近端策略优化) 等策略梯度方法更新策略(权重),从而最大化模型的“人类偏好”。
传统 RLHF 中奖励模型训练和 PPO 强化学习训练是2个分离的过程。增加了复杂度且不稳定。能否将人类编写的高质量问答(prompt → response)对直接用来做训练,跳过RM训练一步到位呢?当然可以,DPO 就实现了这一点。也就是DPO将人类偏好学习和后续打分这2个步骤,合成一步,直接内化为了策略网络的参数更新。从而不光跳过了RM训练,而且跳过了强化学习,直接用人类编写的偏好数据对模型做监督微调。也能达到人类偏好对齐的目标。
DPO 与传统 RLHF 的对比:
| 阶段 | 传统 RLHF | DPO |
|---|---|---|
| SFT(监督微调) | ✅ | ✅ |
| 奖励模型(Reward Model) | ✅ 独立训练一个 RM | ❌ 不需要 RM |
| 策略优化 | ✅ 用 RL(如 PPO) | ✅ 用对比损失,直接优化策略 |
| 计算开销 | 高(需 RL) | 低(纯监督) |
| 易用性 | 较复杂 | 简洁、易扩展 |
同样是针对 RLHF&PPO 的优化,DeepSeek团队提出的GRPO另辟蹊径:它让模型对一个题目同时给出多个答案,直接在这些答案之间“比一比,哪个更好。通过这种方法,GRPO省掉了传统PPO中庞大的计算负担,训练更快、更省资源。相比DPO,因为有组内评估,多了探索过程,所以泛化能力更好。在域外任务,及数学、代码这种推理任务上表现更好。
| 项目 | PPO | DPO | GRPO |
|---|---|---|---|
| 用 RM 吗? | ✅ 是 | ❌ 否 | ❌ 否 |
| 是否策略梯度? | ✅ 是 | ❌ 否(最大似然对比) | ✅ 是(组内相对优势估计更新策略梯度) |
| 简单易用性 | ❌ 中等偏难 | ✅ 非常简单 | ⚠️ 复杂,灵活但需调参 |
| 训练稳定性 | ❌ 差(易崩) | ✅ 稳定 | ✅ 较稳定 |
| 训练成本 | ❌ 高 | ✅ 低 | ✅ 较低 |
DPO严格来说已经不算强化学习了,是披着监督学习外衣的强化学习目标近似。本来冲着RL来的,但是一把优化把自己干成了SL。就像令狐冲,气宗的弟子学了剑宗,且以剑宗成名,那你说他是气宗还是剑宗?所以图里面两边都搭着点儿,身在剑宗心在气宗。而 GRPO 相当于是把气宗练法做了全面改革,通过师兄弟切磋,充分探索,快速提升,不需要一练30年了,练一年就能成,还能应对各种状况。
人工智能三大流派
人工智能的发展过程中,存在三大主要思想流派,各自以不同视角探索智能的本质和实现途径:
- 符号主义:认为智能的核心是符号计算和逻辑推理。认知过程类似于计算机程序对抽象符号的操纵。基于知识表示和规则推理。通过显式地定义符号(表示概念)和规则(推理引擎)来模拟人类逻辑思维(如专家系统)。就像数学家解方程,关注结构化知识和显式推理。
- 连接主义:认为智能源于大脑中大量简单神经元及其连接网络的活动。学习通过调整神经元间的连接强度(权重)实现。以人工神经网络(ANN)为核心。通过数据驱动、分布式并行处理来学习和识别模式,具有强大的学习能力(如深度学习)。就像大脑学习认猫,关注非结构信息处理和学习适应性。
- 行为主义:认为智能体现在与环境的交互行为中。无需预设复杂的内部表示或规则,智能行为通过“感知-行动”反馈循环,在环境中试错和适应产生。强调智能体(Agent)基于环境反馈(如强化学习)自主学习特定任务下的行为策略。关注实时响应和控制。就像生物进化适应环境,关注功能性的实时交互和行为涌现。
三大流派并非截然对立,而是相互影响和融合:
- 符号主义擅长逻辑和知识,但规则定义可能很困难。
- 连接主义擅长学习和模式识别,但常被视为“黑箱”,解释性差。
- 行为主义擅长实时交互和适应,但行为通常只针对特定场景。
现代AI更多采用混合架构,将各派优势结合,如符号知识指导神经网络,或利用强化学习训练模型/智能体等,以克服单一范式的局限。但目前研究和应用都以连接主义为主体,符号主义和行为主义为手段。谁让深度学习和大模型这么火呢。
人工智能宏观发展
从最宏观的角度看,人工智能的发展一般认为会经历三个阶段:
- 窄域人工智能
- 通用人工智能
- 超级人工智能
| 维度 | ANI(窄域人工智能) | AGI(通用人工智能) | ASI(超级人工智能) |
|---|---|---|---|
| 全称 | Artificial Narrow Intelligence | Artificial General Intelligence | Artificial Super Intelligence |
| 能力范围 | 专注于单一任务或特定领域(如翻译、下棋) | 能胜任各类任务,具备跨领域认知与推理能力 | 智能水平远超人类,具备跨领域创造与自主决策能力 |
| 学习方式 | 基于特定任务数据进行监督或强化学习 | 自主学习与泛化能力,能进行跨任务迁移学习 | 拥有自我优化能力,可在无监督下持续演化提升 |
| 智能水平 | 在特定任务中可超过人类专家(如 AlphaGo) | 智能水平接近或等同于人类 | 在创造力、判断力、战略思维等方面全面超越人类 |
| 社会影响 | 提升生产效率,替代部分重复性工作 | 可能引发就业结构重塑与伦理讨论 | 彻底改变人类社会,成为天堂或堕入地狱 |
| 典型场景 | 智能助手、图像识别、工业控制等 | 理论上可同时胜任科学研究、艺术创作、语言理解等所有任务 | 科幻作品中的“天网”“奥创”等超智能体角色 |
| 发展阶段 | 已广泛应用于语音识别、医疗影像等 | 尚处于理论探索与早期实验阶段 | 尚未实现,主要存在于科幻构想与理论假设中 |
小白/程序员如何系统学习大模型LLM?
作为在一线互联网企业深耕十余年的技术老兵,我经常收到小白和程序员朋友的提问:“零基础怎么入门大模型?”“自学没有方向怎么办?”“实战项目怎么找?”等问题。难以高效入门。
这里为了帮助大家少走弯路,我整理了一套全网最全最细的大模型零基础教程。涵盖入门思维导图、经典书籍手册、实战视频教程、项目源码等核心内容。免费分享给需要的朋友!
👇👇扫码免费领取全部内容👇👇
1、我们为什么要学大模型?
很多开发者会问:大模型值得花时间学吗?答案是肯定的——学大模型不是跟风追热点,而是抓住数字经济时代的核心机遇,其背后是明确的行业需求和实打实的个人优势:
第一,行业刚需驱动,并非突发热潮。大模型是AI规模化落地的核心引擎,互联网产品迭代、传统行业转型、新兴领域创新均离不开它,掌握大模型就是拿到高需求赛道入场券。
第二,人才缺口巨大,职业机会稀缺。2023年我国大模型人才缺口超百万,2025年预计达400万,具备相关能力的开发者岗位多、薪资高,是职场核心竞争力。
第三,技术赋能增效,提升个人价值。大模型可大幅提升开发效率,还能拓展职业边界,让开发者从“写代码”升级为“AI解决方案设计者”,对接更高价值业务。
对于开发者而言,现在入门大模型,不仅能搭上行业发展的快车,还能为自己的职业发展增添核心竞争力——无论是互联网大厂的AI相关岗位,还是传统行业的AI转型需求,都在争抢具备大模型技术能力的人才。
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
2、大模型入门到实战全套学习大礼包分享
最后再跟大家说几句:只要你是真心想系统学习AI大模型技术,这份我耗时许久精心整理的学习资料,愿意无偿分享给每一位志同道合的朋友。
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
部分资料展示
2.1、 AI大模型学习路线图,厘清要学哪些
对于刚接触AI大模型的小白来说,最头疼的问题莫过于“不知道从哪学起”,没有清晰的方向很容易陷入“东学一点、西补一块”的低效困境,甚至中途放弃。
为了解决这个痛点,我把完整的学习路径拆解成了L1到L4四个循序渐进的阶段,从最基础的入门认知,到核心理论夯实,再到实战项目演练,最后到进阶优化与落地,每一步都明确了学习目标、核心知识点和配套实操任务,带你一步步从“零基础”成长为“能落地”的大模型学习者。后续还会陆续拆解每个阶段的具体学习内容,大家可以先收藏起来,跟着路线逐步推进。
L1级别:大模型核心原理与Prompt
L1阶段:将全面介绍大语言模型的基本概念、发展历程、核心原理及行业应用。从A11.0到A12.0的变迁,深入解析大模型与通用人工智能的关系。同时,详解OpenAl模型、国产大模型等,并探讨大模型的未来趋势与挑战。此外,还涵盖Pvthon基础、提示工程等内容。
目标与收益:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为AI应用开发打下坚实基础。
L2级别:RAG应用开发工程
L2阶段:将深入讲解AI大模型RAG应用开发工程,涵盖Naive RAGPipeline构建、AdvancedRAG前治技术解读、商业化分析与优化方案,以及项目评估与热门项目精讲。通过实战项目,提升RAG应用开发能力。
目标与收益:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
L3级别:Agent应用架构进阶实践
L3阶段:将 深入探索大模型Agent技术的进阶实践,从Langchain框架的核心组件到Agents的关键技术分析,再到funcation calling与Agent认知框架的深入探讨。同时,通过多个实战项目,如企业知识库、命理Agent机器人、多智能体协同代码生成应用等,以及可视化开发框架与IDE的介绍,全面展示大模型Agent技术的应用与构建。
目标与收益:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
L4级别:模型微调与私有化大模型
L4级别:将聚焦大模型微调技术与私有化部署,涵盖开源模型评估、微调方法、PEFT主流技术、LORA及其扩展、模型量化技术、大模型应用引警以及多模态模型。通过chatGlM与Lama3的实战案例,深化理论与实践结合。
目标与收益:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
2.2、 全套AI大模型应用开发视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
2.3、 大模型学习书籍&文档
收录《从零做大模型》《动手做AI Agent》等经典著作,搭配阿里云、腾讯云官方技术白皮书,帮你夯实理论基础。
2.4、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
2.5、大模型大厂面试真题
整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题,涵盖基础理论、技术实操、项目经验等维度,每道题都配有详细解析和答题思路,帮你针对性提升面试竞争力。
【大厂 AI 岗位面经分享(107 道)】
【AI 大模型面试真题(102 道)】
【LLMs 面试真题(97 道)】
2.6、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】