保定市网站建设_网站建设公司_前端工程师_seo优化
2026/1/3 6:23:54 网站建设 项目流程

CVPR 2025

工业“火眼金睛”再升级!

小波+原型增强

Transformer

像素级缺陷无处可藏!

PYDANCE

在嘈杂背景中锁定微弱缺陷,在复杂纹理中识别细小裂纹——这曾是工业视觉检测的长期痛点。如今,一项融合频域感知与语义抽象的新方法,正在重新定义“精准”二字。

在智能制造的流水线上,每一处微小的表面缺陷都可能影响最终产品的可靠性。传统视觉检测系统往往在应对弱对比度缺陷、复杂纹理背景或细长微裂纹时显得力不从心。

近期,一项发表在计算机视觉顶会CVPR 2025上的研究,提出了一种名为WPFormer的创新模型,巧妙地将小波分析原型学习融入基于查询的Transformer架构,在像素级表面缺陷检测任务上实现了显著突破。

01

研究背景

视觉瓶颈,静态卷积的“视野局限”

长期以来,基于全卷积网络的缺陷检测方法主导了这一领域。它们通过层层卷积提取特征,最终使用静态卷积层对每个像素进行“是/否缺陷”的分类。

这种方法虽然有效,却存在一个根本局限:同一套卷积核无法自适应不同图像的语义内容。尤其是在面对以下挑战时,模型容易“看走眼”:

· 弱缺陷:如近乎透明的划痕、与背景色接近的污渍;

· 复杂背景:如带有规律纹理的织物、反光金属表面;

· 细微结构:如头发丝般的裂纹、断断续续的边缘。

02

核心创新

双域增强的查询式Transformer

WPFormer架构示意图

WPFormer的核心思路颇具启发性:它不再让模型“硬算”每个像素,而是引入一组可学习的查询向量

这些查询像一群“侦察兵”。

在Transformer的解码器中,通过与图像特征的反复交互,动态学习当前图像中缺陷的位置与形态。WPFormer的关键创新在于为这群“侦察兵”配备了两套特殊的“感知装备”。

01.

第一套装备:WCA模块—频域细节感知镜

许多缺陷,尤其是边缘信息,在空间域中不明显,但在频域中(特别是高频分量中)却显露无遗。

因此,WPFormer利用Haar小波变换,将特征图分解为承载基础结构的低频分量和包含细节边缘的高频分量。

通过专门设计的多尺度通道权重调制机,模型能自适应地增强与缺陷相关的有用高频信号,同时抑制噪声。

WCA模块架构图

02.

第二套装备:PCA模块—语义聚焦聚光灯

在空间域中,直接让查询与所有图像像素交互会产生大量冗余计算和干扰.

WPFormer的PCA模块引入了原型学习的概念。它自动将图像特征聚类成若干具有代表性的“原型”,每个原型可看作某类语义信息的聚合体。查询只需与这些数量远少于像素的原型进行交互,就能高效捕获关键信息,仿佛聚光灯直接打在了最重要的区域。

PCA模块架构图

03

实验验证

多项指标全面领先

研究团队在三个具有挑战性的公开数据集上进行了全面评估:

· ESDIs-SOD:涵盖多种类型的钢板表面缺陷

· CrackSeg9k:专注于不同材质表面的裂缝分割

· ZJU-Leaper:大规模的织物疵点数据集

对比方法包括Mask2Former、PEM、ZoomNeXt等17种前沿模型。WPFormer在MAE、、Sα等关键指标上均取得最优结果,显著超越了包括 Mask2Former、PEM 在内的多种当前先进方法。这充分证明了其融合频域与空间域的双路径设计,在应对弱缺陷、复杂背景等挑战时的有效性与通用性。

例如,在ESDIs-SOD数据集上,WPFormer的MAE相比强大的Mask2Former降低了约12%,显著减少了预测误差

本图展示了多种方法在三个缺陷数据集上的检测结果

如第1行和第4行所示,由于缺陷与背景高度相似,部分方法难以检测完整的缺陷区域。研究发现,某些方法会将背景干扰误判为缺陷区域(见第2、3、5行)。对于细长裂纹的检测(如第3、6行所示),部分方法同样面临挑战。相比之下,本文提出的方法能获得更精确的检测效果。

WCA内部采用不同频率融合策略的效果展示

从本图可以看出,本文提出的调制融合能更聚焦缺陷区域并抑制背景噪声。

不同跨注意力的检测效果对比图

传统CA、Masked CA和PEM-CA均存在检测不全(红色框标注)或误检(绿色框标注)问题,而本文方案能更精准聚焦缺陷细节,获得准确检测结果。

应用展望:下一代工业视觉之眼

WPFormer所展现的技术路径,为工业质检乃至更广泛的精细视觉感知任务打开了新的想象空间:

· 高端制造:半导体晶圆、航空发动机叶片、锂电池隔膜等领域的微缺陷检测。

· 基础设施运维:桥梁隧道裂缝、铁轨损伤、管道腐蚀的自动化巡检。

· 新材料检测:复合材料的内部纹理分析、涂层均匀性评估。

其核心思想——通过可学习的查询进行动态语义交互,并融合多域特征——有望迁移到医学图像分割、遥感影像解译等需要极高精度的领域。

WPFormer的成功,是基础视觉理论与实际工业问题一次漂亮的结合。WPFormer通过巧妙融合小波分析的频域感知能力与原型学习的语义抽象能力,为像素级缺陷检测提供了一条新路径。它不仅是一个高性能检测模型,更展示了多域特征融合与动态查询机制在视觉任务中的强大潜力。未来的工业质检系统,或许就藏着这样一双“既见森林,又见树木”的智慧之眼。

另外,WPFormer提出的WCA和PCA模块设计精巧,具有极强的独立性和可移植性,非常适合作为“即插即用”模块应用于其他计算机视觉任务。

联系方式

派动科技专注于全行业人工智能算法和模型的研发,以及全行业人工智能总体解决方案的工程化落地。

经典案例包括:

1️⃣ 医疗影像识别

2️⃣ 空间单细胞转录

3️⃣ 中医药有效成分检测

4️⃣ 中医药重金属及农残检测

5️⃣ 烟草等级分类

6️⃣ 各行业产品缺陷检测

7️⃣ 各类空间中人员的危险监测及预警

8️⃣ 工业设备的预测性维护

……

欢迎对人工智能技术或工程感兴趣的朋友

随时与我们交流!

派动科技

公司名称 | 上海派动科技有限公司

公司地址 | 上海市浦东新区环科路浦东国际人才港14号楼, AI驿站

联系邮箱 | zhongbing@pydance.cn

联系电话 | 19988102352

人工智能 创造未来

论文地址: https://ieeexplore.ieee.org/abstract/document/11094100

代码仓库: https://github.com/yfhdm/WPFormer

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询