不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%

张开发
2026/4/18 23:08:40 15 分钟阅读

分享文章

不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%
导读在多模态工业异常检测中Memory Bank方法长期占据主流地位但它们需要存储大量正常样本特征导致内存占用高、推理速度慢。有没有可能不用Memory Bank也能达到同等甚至更好的检测精度CMDR-IAD给出了肯定的答案。这一框架通过跨模态映射建模2D纹理与3D几何之间的一致性关系同时用双分支重建分别捕捉正常的纹理模式和几何结构再经由可靠性感知融合将两路异常信号整合。在MVTec 3D-AD基准上CMDR-IAD以97.3% I-AUROC和97.6% AUPRO30%达到当前最优推理速度3.7 FPS且完全不依赖Memory Bank。论文信息标题Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection作者Radia Daci, Vito Reno, Cosimo Patruno, Angelo Cardellicchio, Abdelmalik Taleb-Ahmed, Marco Leo, Cosimo Distante机构CNR-ISASI意大利国家研究委员会 应用科学与智能系统研究所、CNR-STIIMA意大利国家研究委员会 先进制造工业技术研究所、IEMN法国微电子与纳米技术研究所隶属法国上法兰西理工大学/里尔大学/CNRS代码https://github.com/ECGAI-Research/CMDR-IAD/一、3D异常检测为什么需要跨模态工业异常检测中单纯依赖2D RGB图像面临明显的局限光照变化、镜面反射和传感器噪声都会干扰纹理信息的可靠性而许多缺陷的表现形式是微妙的几何偏差而非明显的颜色或纹理变化。因此将2D纹理信息与3D几何信息结合成为提升检测鲁棒性的自然选择——纹理擅长捕捉表面颜色和图案异常几何擅长捕捉形变、凹陷等结构性缺陷两者互补。然而现有多模态方法存在三类问题Memory Bank方法如BTF、M3DM需要在训练时存储大量正常样本的特征向量测试时逐一比对。这带来高内存占用和慢推理速度。Teacher-Student方法如AST间接处理3D信息未充分利用几何结构。固定融合方案对噪声深度数据、弱纹理区域或缺失模态不够鲁棒容易在数据质量不佳时产生误判。CMDR-IAD的核心思路是不存储任何训练样本特征而是将正常模式编码进网络参数中。通过跨模态映射学习2D与3D特征之间的对应关系通过双分支重建分别学习正常纹理和正常几何的分布测试时直接前向传播即可完成异常检测。二、跨模态映射双分支重建架构CMDR-IAD由四个核心组件组成下面逐一说明。2.1 多模态特征提取2D分支采用冻结的DINO ViT-B/8在ImageNet上预训练将RGB图像编码为密集像素对齐的特征图经双线性上采样后得到分辨率为224×224的特征表示F^{2D}。3D分支采用冻结的Point-MAE在ShapeNet上预训练将输入点云编码为稀疏几何特征token经插值扩展到所有点后再通过3×3通道级2D平均池化进行空间平滑最终通过自适应平均池化对齐到同样的224×224空间网格。两个编码器在训练过程中完全冻结只有后续模块的参数需要学习这使得可训练参数量保持在较小规模。2.2 双向跨模态映射两个轻量级MLP分别执行双向映射M_{2D→3D}从2D特征预测对应位置的3D特征M_{3D→2D}从3D特征预测对应位置的2D特征每个MLP的结构为输入投影 → 非线性变换块GELU LayerNorm → 输出投影。映射在逐像素位置上独立执行。对于缺失深度数据的位置如遮挡或传感器盲区映射特征直接设为零避免引入无效监督信号。这种设计的直觉是在正常样本上2D纹理与3D几何之间存在稳定的对应关系比如某种表面纹理通常对应特定的几何形状。当出现异常时这种对应关系被打破映射预测与实际特征之间的差异就是异常信号。2.3 双分支重建模块2D重建分支线性投影 →Sparse-Attention块QKV线性层 → Attention → 投影 → LayerNorm → MLP Block残差连接 → reshape为空间网格 →ConvTranspose2D层完成上采样重建。3D重建分支投影层 →ConvTranspose1D层序列逐步上采样到原始分辨率 → 轻量级通道注意力模块AvgPool → Conv1D → ReLU → Conv1D → Sigmoid作为残差通路。两个分支各自独立训练使用Masked Similarity Loss基于余弦相似度仅在有有效3D特征的像素上计算。四个损失函数2D/3D映射损失 2D/3D重建损失各自只更新对应模块不共享梯度。2.4 可靠性感知融合异常评分的融合分为两个层面Reliability-Gated Mapping Anomaly可靠性门控映射异常将2D映射差异和3D映射差异相乘乘法操作强调双模态一致的异常区域再通过从局部统计量导出的空间可靠性系数α进行门控抑制不可靠区域的噪声。Confidence-Weighted Reconstruction Anomaly置信度加权重建异常2D和3D的重建差异各自乘以一个与重建误差负相关的置信度权重温度参数β0.3然后加权平均。重建误差越小的模态置信度越高在融合中占更大权重。最终异常图 映射异常 × 重建异常再经box filter空间平滑。图像级评分取异常图的最大值除以有效区域均值的平方根。图片来源于原论文三、MVTec 3D-AD实验97.3% I-AUROC实验设置数据集MVTec 3D-AD包含10个工业物体类别2656个训练样本仅正常 1197个测试样本正常缺陷训练配置每个类别独立训练Adam优化器学习率10^{-3}batch size150个epoch硬件NVIDIA A100 GPU主实验结果下表展示了2D3D多模态设置下的I-AUROC结果CMDR-IAD与16种对比方法的逐类别对比方法BagelCable GlandCarrotCookieDowelFoamPeachPotatoRopeTireMeanM3DM (2023)99.490.997.297.696.094.297.389.997.285.094.5CFM (2024)99.488.898.499.398.088.894.194.398.095.395.4MTSJM (2025)100.093.198.599.496.889.998.694.796.289.795.73D-ADNAS (2025)99.7100.097.198.696.694.889.787.3100.086.795.1CMDR-IAD99.693.098.699.899.193.699.693.195.797.597.3几个值得关注的数据点Mean I-AUROC 97.3%超越第二名MTSJM的95.7%1.6%CMDR-IAD在10个类别中5个取得最高I-AUROCCarrot 98.6%、Cookie 99.8%、Dowel 99.1%、Peach 99.6%、Tire 97.5%CMDR-IAD是唯一所有类别I-AUROC均超过93%的方法范围93.0%–99.8%其他方法都存在个别类别的明显短板在像素级定位指标上CMDR-IAD同样表现优异。在像素级定位指标上2D3D设置的AUPRO30% Mean达到97.6%所有类别均超过95.5%范围95.9%–98.2%。在更严格的AUPRO1%指标上CMDR-IAD取得46.5%Mean10个类别中8个最高。推理效率对比下表综合对比了推理速度、内存占用和检测性能方法帧率 (FPS)内存 (MB)I-AUROCP-AUROCAUPRO30%AUPRO1%CFM (CVPR 2024)3.3311957.7795.499.297.145.5CMDR-IAD3.7102797.6597.399.697.646.5CMDR-IAD的推理帧率为3.710 FPS高于CFM的3.331 FPS0.379 FPS。内存占用2797.65 MB高于CFM的1957.77 MB839.88 MB但关键在于CMDR-IAD完全不使用Memory Bank——这意味着其内存占用不会随训练数据量增加而膨胀而Memory Bank方法的内存会持续增长。在所有性能指标上CMDR-IAD均为最高I-AUROC 97.3%1.9%、P-AUROC 99.6%0.4%、AUPRO30% 97.6%0.5%、AUPRO1% 46.5%1.0%。聚氨酯数据集3D-only验证论文还在一个来自MOROSAI项目的真实聚氨酯切割数据集上验证了3D-only模式该数据集仅有3D点云无RGB图像指标帧率 (FPS)内存 (MB)I-AUROCP-AUROCCMDR-IAD (3D-only)24.63465.6892.6%92.5%3D-only模式的推理速度达到24.63 FPS内存仅465.68 MB说明框架在单模态场景下依然保持良好的性能和效率。图片来源于原论文四、消融实验映射和重建各贡献多少跨模态映射 vs 双分支重建下表对比了单独使用重建或映射、以及两者结合的效果配置I-AUROCP-AUROCAUPRO30%AUPRO1%仅双分支重建95.098.695.241.0仅跨模态映射95.499.497.446.0CMDR-IAD两者结合97.399.697.646.5单独使用任一组件已经能获得较强的性能I-AUROC均在95%以上但两者结合后I-AUROC从95.0%/95.4%提升到97.3%2.3%/1.9%。值得注意的是跨模态映射单独使用时在像素级定位指标上表现更突出AUPRO30% 97.4% vs 重建的95.2%差距2.2%说明映射组件对精确定位的贡献更大。而两者结合后I-AUROC的提升幅度最为显著说明重建组件主要贡献于图像级检测的准确性。融合策略消融下表对比了7种不同的融合策略融合变体I-AUROCP-AUROCAUPRO30%AUPRO1%Case 1: 门控映射融合96.799.597.446.3Case 2: 纯乘法融合97.199.597.646.4Case 3: 软自适应融合96.799.296.845.0Case 4: Softmax映射门控重建96.699.597.446.1Case 5: 双门控融合97.099.697.746.5Case 6: 均匀平均95.098.795.742.5CMDR-IADReliability-Gated Confidence-Weighted97.399.697.646.5这组消融有几个清晰的结论均匀平均Case 6是最差的选择I-AUROC仅95.0%比CMDR-IAD低2.3%AUPRO1%仅42.5%-4.0%说明简单平均无法处理不同模态信号的可靠性差异。无可靠性门控的软融合Case 3也表现不佳AUPRO30%仅96.8%比CMDR-IAD低0.8%说明不加门控的自适应权重容易被噪声模态误导。包含可靠性门控的变体Cases 1, 4, 5一致性更好都在96.6%–97.0% I-AUROC范围内验证了可靠性门控机制的有效性。CMDR-IAD的融合方案在综合指标上最优虽然Case 5在AUPRO30%上略高0.1%但CMDR-IAD在I-AUROC上高出0.3%整体表现最均衡。五、总结与思考CMDR-IAD用跨模态映射双分支重建替代Memory Bank在MVTec 3D-AD上以97.3% I-AUROC和97.6% AUPRO30%达到当前最优推理速度3.710 FPS。消融实验中有两个值得注意的发现一是跨模态映射单独使用时AUPRO30%已达97.4%接近完整模型的97.6%说明显式建模2D-3D对应关系对像素级定位贡献很大二是融合策略的设计带来了2.3%的I-AUROC提升均匀平均 vs 可靠性门控在3D传感器数据存在噪声和缺失的工业场景中这种区分可靠区域与不可靠区域的机制是必要的。内存方面CMDR-IAD的2797.65 MB并不算低但它是固定的——不随训练数据量增长这是相对Memory Bank方法在产线部署时的实际优势。局限性在于框架依赖对齐的RGB-3D数据2D-only设置下I-AUROC为87.5%低于3D-ADNAS的92.0%优势集中体现在多模态协同上。

更多文章