保姆级教程：在PyTorch中手把手实现CBAM注意力模块（附完整代码）

张开发

• 2026/4/20 9:12:08 • 15 分钟阅读

分享文章

深度实践指南PyTorch中CBAM注意力模块的工程化实现在计算机视觉领域注意力机制已经成为提升模型性能的关键技术之一。CBAMConvolutional Block Attention Module作为一种轻量级且高效的注意力模块能够在不显著增加计算成本的情况下显著提升卷积神经网络的性能。本文将带您从零开始在PyTorch框架中完整实现CBAM模块并分享在实际项目中的集成技巧和优化经验。1. CBAM模块的核心原理与设计思路CBAM由两个子模块组成通道注意力模块Channel Attention Module和空间注意力模块Spatial Attention Module。这种双注意力机制的设计使得网络能够自适应地学习看哪里和看什么。通道注意力模块的工作原理可以概括为对输入特征图同时进行全局平均池化和全局最大池化将两种池化结果送入共享的MLP网络将MLP输出相加并通过sigmoid激活将得到的通道注意力权重与原始特征图相乘class ChannelAttention(nn.Module): def __init__(self, in_planes, ratio16): super(ChannelAttention, self).__init__() self.avg_pool nn.AdaptiveAvgPool2d(1) self.max_pool nn.AdaptiveMaxPool2d(1) self.fc1 nn.Conv2d(in_planes, in_planes // ratio, 1, biasFalse) self.relu1 nn.ReLU() self.fc2 nn.Conv2d(in_planes // ratio, in_planes, 1, biasFalse) self.sigmoid nn.Sigmoid()空间注意力模块则采用不同的策略沿通道维度进行平均池化和最大池化将两种池化结果在通道维度拼接通过卷积层生成空间注意力图应用sigmoid激活并与输入特征图相乘class SpatialAttention(nn.Module): def __init__(self, kernel_size7): super(SpatialAttention, self).__init__() self.conv nn.Conv2d(2, 1, kernel_size, paddingkernel_size//2, biasFalse) self.sigmoid nn.Sigmoid()2. 完整CBAM模块的PyTorch实现将通道注意力和空间注意力模块组合起来就构成了完整的CBAM模块。在实践中我们发现先应用通道注意力再应用空间注意力的串行方式效果最佳。class CBAM(nn.Module): def __init__(self, in_planes, ratio16, kernel_size7): super(CBAM, self).__init__() self.ca ChannelAttention(in_planes, ratio) self.sa SpatialAttention(kernel_size) def forward(self, x): x self.ca(x) * x # 通道注意力 x self.sa(x) * x # 空间注意力 return x在实际部署时有几个关键参数需要特别注意参数名称推荐值作用调整建议ratio16通道压缩比例对于小模型可减小到8kernel_size7空间注意力卷积核大小根据输入尺寸调整放置位置每个残差块后CBAM模块的插入位置也可尝试放在block内部3. 将CBAM集成到常见网络架构3.1 与ResNet的集成ResNet是计算机视觉中最常用的骨干网络之一。在ResNet中集成CBAM时通常在每个残差块之后添加CBAM模块。class BasicBlock(nn.Module): expansion 1 def __init__(self, inplanes, planes, stride1, downsampleNone): super(BasicBlock, self).__init__() self.conv1 conv3x3(inplanes, planes, stride) self.bn1 nn.BatchNorm2d(planes) self.relu nn.ReLU(inplaceTrue) self.conv2 conv3x3(planes, planes) self.bn2 nn.BatchNorm2d(planes) self.downsample downsample self.stride stride self.cbam CBAM(planes * self.expansion) # 添加CBAM模块 def forward(self, x): identity x out self.conv1(x) out self.bn1(out) out self.relu(out) out self.conv2(out) out self.bn2(out) if self.downsample is not None: identity self.downsample(x) out identity out self.relu(out) out self.cbam(out) # 应用CBAM return out3.2 与MobileNet的集成对于轻量级网络如MobileNet集成CBAM时需要特别注意计算开销。建议只在关键层添加CBAM并适当减小ratio值以减少参数量。class MobileNetV2_With_CBAM(nn.Module): def __init__(self, num_classes1000): super(MobileNetV2_With_CBAM, self).__init__() # 原始MobileNetV2结构 self.features nn.Sequential( # ... 省略其他层 ... InvertedResidual(96, 160, stride1, expand_ratio6), InvertedResidual(160, 320, stride1, expand_ratio6), nn.Conv2d(320, 1280, kernel_size1, stride1, padding0, biasFalse), nn.BatchNorm2d(1280), nn.ReLU6(inplaceTrue) ) # 只在最后关键层添加CBAM self.cbam CBAM(1280, ratio8) # 使用更小的ratio self.classifier nn.Linear(1280, num_classes) def forward(self, x): x self.features(x) x self.cbam(x) # 应用CBAM x x.mean([2, 3]) # global average pooling x self.classifier(x) return x4. 训练技巧与性能优化4.1 初始化策略CBAM模块中的参数需要合理初始化才能快速收敛。推荐以下初始化方案MLP层的权重使用He初始化卷积层的权重使用Xavier初始化所有偏置项初始化为0def init_weights(m): if isinstance(m, nn.Conv2d): if m in [module.conv for module in model.modules() if isinstance(module, SpatialAttention)]: nn.init.xavier_normal_(m.weight, gain1.0) else: nn.init.kaiming_normal_(m.weight, modefan_out, nonlinearityrelu) elif isinstance(m, nn.BatchNorm2d): nn.init.constant_(m.weight, 1) nn.init.constant_(m.bias, 0) model.apply(init_weights)4.2 学习率设置由于CBAM模块相对较小其学习率应该略高于主干网络。一个有效的策略是主干网络使用基础学习率CBAM模块的学习率设置为1.5-2倍基础学习率使用分组参数优化器optimizer torch.optim.SGD([ {params: [p for n, p in model.named_parameters() if cbam not in n]}, {params: [p for n, p in model.named_parameters() if cbam in n], lr: args.lr * 1.5} ], lrargs.lr, momentum0.9, weight_decay1e-4)4.3 常见问题与解决方案在实际项目中应用CBAM时可能会遇到以下典型问题训练初期性能下降原因注意力模块干扰了主干的初始特征解决方案前几个epoch冻结CBAM模块待主干初步收敛后再解冻显存占用增加原因CBAM引入了额外的计算图解决方案使用梯度检查点技术或减小batch size在小数据集上过拟合原因注意力机制增加了模型容量解决方案增强数据增广或对CBAM输出添加dropout5. 效果验证与性能对比为了验证CBAM的实际效果我们在CIFAR-100数据集上进行了对比实验结果如下模型准确率(%)参数量(M)GFLOPsResNet1872.311.20.56ResNet18CBAM74.8 (2.5)11.30.58ResNet5076.523.51.31ResNet50CBAM78.9 (2.4)23.71.35可视化分析显示添加CBAM后模型确实更加关注目标物体的关键区域。例如在图像分类任务中CBAM使网络注意力集中在物体本身而非背景上。

更多文章

前端开发 2026/4/20 9:09:55

视频转PPT神器：3步从视频中智能提取演示文稿

视频转PPT神器：3步从视频中智能提取演示文稿【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 你是否曾经为了从录制的视频课程或会议录像中获取PPT内容而烦恼？…

G-Helper：告别臃肿，让你的华硕笔记本重获新生【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix,…

张开发

前端开发 2026/4/20 8:47:40

AGI财务分析能力跃迁路径图（仅限首批认证机构解密版）：从RPA级记账到IAS 39金融工具建模的4阶认证体系

第一章：AGI财务分析与审计能力的范式革命 2026奇点智能技术大会(https://ml-summit.org) 传统财务分析与审计长期受限于规则刚性、样本抽样偏差及人工判断滞后性。AGI系统凭借跨模态语义理解、实时因果推理与自主知识演进能力，正从根本上重构财务尽职调…

张开发

保姆级教程：在PyTorch中手把手实现CBAM注意力模块（附完整代码）

最新文章

从学生实验到工程师思维：用Cadence Virtuoso AMI 0.6u工艺设计与非门版图的完整避坑指南

告别MapStruct的‘幽灵NPE’：深入DefaultVersionInformation，教你彻底排查注解处理器内部错误

别再乱加@Transactional了！MyBatis的SqlSession与Spring事务同步的保姆级避坑指南

基于深度学习的口腔疾病图像识别系统(UI界面+改进算法+数据集+训练代码)

别再只用MD5了！手把手教你用国密SM3为你的API接口和文件做‘指纹’校验

原创文档：基于深度学习的口腔疾病图像识别系统设计与实现

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

视频转PPT神器：3步从视频中智能提取演示文稿

告别启动黑屏：手把手教你用uboot命令行动态调试bootargs（以RK3568为例）

多平台自动签到神器：告别手动打卡，30+平台一键搞定

ipget实战指南：零依赖从IPFS网络高效下载文件

八大网盘直链下载助手终极指南：3分钟告别限速烦恼

30个平台自动签到终极方案：告别繁琐手动操作，5分钟快速部署你的多账号管理助手

赛博朋克2077 vcruntime140_1.dll 丢失官方修复：如何安全一劳永逸地解决

LinkSwift网盘直链解析工具深度解析：架构设计与技术实现剖析

Unity游戏多语言本地化：XUnity.AutoTranslator技术架构与实践指南

南北阁 Nanbeige 4.1-3B 多场景应用：IT运维知识库+故障排查助手案例

G-Helper：告别臃肿，让你的华硕笔记本重获新生

AGI财务分析能力跃迁路径图（仅限首批认证机构解密版）：从RPA级记账到IAS 39金融工具建模的4阶认证体系

保姆级教程：在PyTorch中手把手实现CBAM注意力模块（附完整代码）

最新文章

从学生实验到工程师思维：用Cadence Virtuoso AMI 0.6u工艺设计与非门版图的完整避坑指南

告别MapStruct的‘幽灵NPE’：深入DefaultVersionInformation，教你彻底排查注解处理器内部错误

别再乱加@Transactional了！MyBatis的SqlSession与Spring事务同步的保姆级避坑指南

基于深度学习的口腔疾病图像识别系统(UI界面+改进算法+数据集+训练代码)

别再只用MD5了！手把手教你用国密SM3为你的API接口和文件做‘指纹’校验

原创文档：基于深度学习的口腔疾病图像识别系统设计与实现

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统