那曲市网站建设_网站建设公司_Redis_seo优化-太原市网站建设公司

预训练模型

@疏锦行

我们之前在训练中发现，准确率最开始随着epoch的增加而增加。随着循环的更新，参数在不断发生更新。

所以参数的初始值对训练结果有很大的影响：

如果最开始的初始值比较好，后续训练轮数就会少很多
很有可能陷入局部最优值，不同的初始值可能导致陷入不同的局部最优值
所以很自然的想到，如果最开始能有比较好的参数，即可能导致未来训练次数少，也可能导致未来训练避免陷入局部最优解的问题。这就引入了一个概念，即预训练模型。

如果别人在某些和我们目标数据类似的大规模数据集上做过训练，我们可以用他的训练参数来初始化我们的模型，这样我们的模型就比较容易收敛。

为了帮助你们理解，这里提出几个自问自答的问题。

那为什么要选择类似任务的数据集预训练的模型参数呢？

因为任务差不多，他提取特征的能力才有用，如果任务相差太大，他的特征提取能力就没那么好。
所以本质预训练就是拿别人已经具备的通用特征提取能力来接着强化能力使之更加适应我们的数据集和任务。

为什么要求预训练模型是在大规模数据集上训练的，小规模不行么？
因为提取的是通用特征，所以如果数据集数据少、尺寸小，就很难支撑复杂任务学习通用的数据特征。比如你是一个物理的博士，让你去做小学数学题，很快就能上手；但是你是一个小学数学速算高手，让你做物理博士的课题，就很困难。所以预训练模型一般就挺强的。

我们把用预训练模型的参数，然后接着在自己数据集上训练来调整该参数的过程叫做微调，这种思想叫做迁移学习。把预训练的过程叫做上游任务，把微调的过程叫做下游任务。

现在再来看下之前一直用的cifar10数据集，他是不是就很明显不适合作为预训练数据集？

规模过小：仅 10 万张图像，且尺寸小（32x32），无法支撑复杂模型学习通用视觉特征；
类别单一：仅 10 类（飞机、汽车等），泛化能力有限；

这里给大家介绍一个常常用来做预训练的数据集，ImageNet，ImageNet 1000 个类别，有 1.2 亿张图像，尺寸 224x224，数据集大小 1.4G，下载地址：http://www.image-net.org/。

模型	预训练数据集	核心特点	在CIFAR10上的适配要点
AlexNet	ImageNet	首次引入ReLU/局部响应归一化，参数量6000万+	需修改首层卷积核大小（原11x11→适配32x32）
VGG16	ImageNet	纯卷积堆叠，结构统一，参数量1.38亿	冻结前10层卷积，仅微调全连接层
ResNet18	ImageNet	残差连接解决梯度消失，参数量1100万	直接适配32x32输入，需调整池化层步长
MobileNetV2	ImageNet	深度可分离卷积，参数量350万+	轻量级设计，适合计算资源有限的场景

Transformer类预训练模型

适用于较大尺图像（如224x224），在CIFAR10上需上采样图像尺寸或调整Patch大小。

模型	预训练数据集	核心特点	在CIFAR10上的适配要点
ViT-Base	ImageNet-21K	纯Transformer架构，参数量8600万	图像Resize至224x224，Patch大小设为4x4
Swin Transformer	ImageNet-22K	分层窗口注意力，参数量8000万+	需调整窗口大小适配小图像
DeiT	ImageNet	结合CNN归纳偏置，参数量2200万	轻量级Transformer，适合中小尺寸图像

自监督预训练模型

无需人工标注，通过 pretext task（如掩码图像重建）学习特征，适合数据稀缺场景。

模型	预训练方式	典型数据集	在CIFAR10上的优势
MoCo v3	对比学习	ImageNet	无需标签即可迁移，适合无标注数据
BEiT	掩码图像建模	ImageNet-22K	特征语义丰富，微调时收敛更快

模型	年份	提出团队	关键创新点	层数	参数量	ImageNet Top-5错误率	典型应用场景	预训练权重可用性
LeNet-5	1998	Yann LeCun等	首个CNN架构，卷积层+池化层+全连接层，Sigmoid激活函数	7	~60K	N/A	手写数字识别（MNIST）	无（历史模型）
AlexNet	2012	Alex Krizhevsky等	ReLU激活函数、Dropout、数据增强、GPU训练	8	60M	15.3%	大规模图像分类	PyTorch/TensorFlow官方支持
VGGNet	2014	Oxford VGG团队	统一3×3卷积核、多尺度特征提取、结构简洁	16/19	138M/144M	7.3%/7.0%	图像分类、目标检测基础骨干网络	PyTorch/TensorFlow官方支持
GoogLeNet	2014	Google	Inception模块（多分支并行卷积）、1×1卷积降维、全局平均池化	22	5M	6.7%	大规模图像分类	PyTorch/TensorFlow官方支持
ResNet	2015	何恺明等	残差连接（解决梯度消失）、Batch Normalization	18/50/152	11M/25M/60M	3.57%/3.63%/3.58%	图像/视频分类、检测、分割	PyTorch/TensorFlow官方支持
DenseNet	2017	Gao Huang等	密集连接（每层与后续所有层相连）、特征复用、参数效率高	121/169	8M/14M	2.80%	小数据集、医学图像处理	PyTorch/TensorFlow官方支持
MobileNet	2017	Google	深度可分离卷积（减少75%计算量）、轻量级设计	28	4.2M	7.4%	移动端图像分类/检测	PyTorch/TensorFlow官方支持
EfficientNet	2019	Google	复合缩放（同时优化深度、宽度、分辨率）、NAS搜索最佳配置	B0-B7	5.3M-66M	2.6% (B7)	高精度图像分类（资源受限场景）	PyTorch/TensorFlow官方支持

上图的层数，代表该模型不同的版本resnet有resnet18、resnet50、resnet152；efficientnet有efficientnet-b0、efficientnet-b1、efficientnet-b2、efficientnet-b3、efficientnet-b4等

其中ImageNet Top - 5 准确率是图像分类任务里的一种评估指标，用于衡量模型在 ImageNet 数据集上的分类性能，模型对图像进行分类预测，输出所有类别（共 1000 类）的概率，取概率排名前五的类别，只要这五个类别里包含人工标注的正确类别，就算预测正确。

模型架构演进关键点总结

深度突破：从LeNet的7层到ResNet152的152层，残差连接解决了深度网络的训练难题。 ----没上过我复试班cv部分的自行去了解下什么叫做残差连接，很重要！
计算效率：GoogLeNet（Inception）和MobileNet通过结构优化，在保持精度的同时大幅降低参数量。
特征复用：DenseNet的密集连接设计使模型能更好地利用浅层特征，适合小数据集。
自动化设计：EfficientNet使用神经架构搜索（NAS）自动寻找最优网络配置，开创了AutoML在CNN中的应用。

预训练模型使用建议

任务需求	推荐模型	理由
快速原型开发	ResNet50/18	结构平衡，预训练权重稳定，社区支持完善
移动端部署	MobileNetV3	参数量小，计算高效，专为移动设备优化
高精度分类（资源充足）	EfficientNet-B7	目前ImageNet准确率领先，适合GPU/TPU环境
小数据集或特征复用需求	DenseNet	密集连接设计减少过拟合，特征复用能力强
多尺度特征提取	Inception-ResNet	结合Inception多分支和ResNet残差连接，适合复杂场景

这些模型的预训练权重均可通过主流框架（如PyTorch的torchvision.models、Keras的applications模块）直接加载，便于快速迁移到新任务。

那曲市网站建设_网站建设公司_Redis_seo优化

预训练模型

Transformer类预训练模型

自监督预训练模型

热门文章

文章分类

标签云

需要专业的网站建设服务？

那曲市网站建设_网站建设公司_Redis_seo优化

预训练模型

Transformer类预训练模型

自监督预训练模型

热门文章

文章分类

标签云

相关文章

如何在电商中实施社交媒体营销策略

Node.js heapdump轻松查内存泄漏

深度学习毕设项目：基于MobileNet v2模型的口罩实时检测系统实现

需要专业的网站建设服务？