AI技术原理--AI技术路线图:从机器学习到大模型的完整框架

张开发
2026/4/3 14:12:21 15 分钟阅读
AI技术原理--AI技术路线图:从机器学习到大模型的完整框架
很多人一上来就问GPT是不是AIDeepSeek是不是AI这些其实都是AI的应用。要真正理解AI需要搞清楚整个技术谱系。AI技术谱系四层结构AI大概念 └── 机器学习AI的子集 └── 深度学习机器学习的子集 ├── 判别式模型 └── 生成式模型 └── 大语言模型GPT、Claude等类比理解假设AI是一个医学系统层级类比AI整个医学系统机器学习内科深度学习心血管科大语言模型心血管科某个专业医生千万别把AI和ChatGPT画等号。第一层机器学习核心能力模式识别泛化能力在没见过的数据上表现良好三种学习方式类型特点应用监督学习有标注数据图像分类、语音识别、价格预测无监督学习无标注数据用户分群、异常检测半监督学习少量标注大量无标注医学影像标注困难但重要第二层深度学习与传统机器学习的区别传统机器学习深度学习特征工程传统模型特征自动提取深度神经网络需要人工设计特征网络自动学习特征神经网络结构输入层 → 隐藏层多层 → 输出层本质一个多层的非线性函数用来逼近现实分布。核心组件组件作用权重Weight连接强度偏置Bias阈值调节激活函数引入非线性第三层判别式 vs 生成式模型核心区别类型关注点数学表示判别式模型边界P(Y生成式模型分布P(X,Y)对比维度判别式模型生成式模型代表逻辑回归、决策树、SVMGPT、VAE、扩散模型任务分类、识别文本生成、图像生成特点训练快、准确度高训练慢、能创造内容生成能力几乎为零核心能力第四层生成式模型的四种架构1. 自回归模型GPT原理一步步预测下一个Token优点缺点文本生成流畅难以并行推理慢2. 自编码器/变分自编码器VAE原理编码器压缩特征解码器还原应用特点图像生成、视频生成引入概率建模生成多样性3. 扩散模型Diffusion原理从一堆噪声逐步采样得到清晰图像优点缺点图像质量极高生成较慢代表Midjourney、Stable Diffusion4. 生成对抗网络GAN原理生成器造假数据判别器判断真假优点缺点生成多样性极强训练不稳定大语言模型LLM代表模型GPT系列OpenAIClaudeAnthropicDeepSeek通义千问、文心一言底层架构所有大语言模型的底层都是Transformer。训练阶段阶段目的数据预训练学习基础能力海量无标注数据微调适应特定任务子任务数据集人类偏好对齐提升安全性和可控性人类反馈数据Transformer的核心模块模块作用自注意力理解上下文关系多头注意力从多个角度关注信息前馈神经网络非线性变换残差连接加速训练层归一化稳定训练生成式AI的落地场景场景代表产品文生文GPT、Claude、DeepSeek文生图Midjourney、DALL-E、即梦文生视频Sora、可灵、Runway文生3DTripo等文生代码GitHub Copilot、Cursor共同点看起来是不同的任务但本质上都是Transformer 不同模态的预处理。AI发展的时间线年份里程碑1950s图灵提出机器能否思考1956人工智能术语诞生1969神经网络局限被揭示第一次寒冬1986反向传播算法提出2012AlexNet横空出世深度学习爆发2016AlphaGo战胜李世石2017Transformer论文发表2022ChatGPT发布AI进入大众视野2025DeepSeek等开源模型崛起常见问题Q1机器学习和深度学习有什么区别深度学习是机器学习的子集使用多层神经网络自动学习特征。Q2为什么现在都在谈大模型大模型在参数量和训练数据达到一定规模后会出现涌现能力——突然具备理解、推理等能力。Q3判别式和生成式哪个更好看用途。需要分类识别用判别式需要创造内容用生成式。一句话总结AI包括机器学习机器学习包括深度学习深度学习靠的是多层神经网络。大模型属于自回归模型Transformer是它的底座。现在的AI已经进入多模态时代——既能生成文本也能生成图像和视频。

更多文章