论文标题: BlurDM: A Blur Diffusion Model for Image Deblurring
发表日期: 2025年12月
作者: Jin-Ting He, Fu-Jen Tsai, Yan-Tsung Peng, Min-Hung Chen, Chia-Wen Lin, Yen-Yu Lin
发表单位:National Yang Ming Chiao Tung University, National Tsing Hua University, National Chengchi University,
NVIDIA原文链接: https://arxiv.org/pdf/2512.03979v2
项目链接: https://jin-ting-he.github.io/Blur-Diffusion-Model/
图像去模糊的困境与突破
图像去模糊,简单说就是给一张“糊了”的照片,还原出它原本清晰的样子。这听起来像是魔法,但在数学上却是一个典型的“病态问题”(Ill-posed Problem)。为什么这么说?因为一张模糊照片,可能是由无数种不同的清晰照片,经过不同的运动轨迹模糊后形成的。就像你只知道一个模糊的影子,却要猜出原本物体的精确形状,信息严重不足。
早期的深度学习方法,无论是基于CNN(卷积神经网络)还是Transformer,都取得了长足的进步。它们通过学习海量的“模糊-清晰”图像对,试图找到一个从模糊到清晰的映射函数。但这类方法通常使用回归损失(如L1、L2损失)进行训练,这会导致一个致命问题:模型倾向于输出一个“平均”的、安全的答案,也就是过度平滑(Over-smoothed)的结果。恢复的图像虽然不模糊了,但高频细节(比如发丝、纹理、边缘)也丢失了,看起来像是被磨皮过度,缺乏真实感。
于是,研究者们把目光投向了生成模型,特别是扩散模型。扩散模型的核心思想是“先破坏,再重建”:在正向过程中,它逐步向一张清晰图片添加随机高斯噪声,直到图片变成纯噪声;在逆向过程中,它再一步步从纯噪声中“去噪”,最终生成一张全新的清晰图片。这个过程能产生细节丰富、纹理逼真的图像,完美契合了去模糊任务对高质量细节的需求。
一些先驱工作已经尝试将扩散模型作为“先验生成器”,为去模糊网络提供高质量的图像先验信息,取得了一定效果。但总感觉差了那么一口气,没有把扩散模型的潜力完全发挥出来。问题出在哪里?
扩散模型在去模糊中的局限
标准扩散模型是为无条件图像生成设计的,它的“破坏”手段是添加各向同性的随机高斯噪声。这种噪声没有方向,没有结构,均匀地污染每一个像素。
但运动模糊(Motion Blur)的形成过程完全不同!它源于相机曝光时间内,传感器对连续场景的积分。想象一下,你拿着相机快速平移,场景中的每个点都会在传感器上拖出一条轨迹,这些轨迹相互叠加,就形成了模糊。这种模糊是有结构的、有方向的、非均匀的,并且是渐进累积的——曝光时间越长,模糊越严重。
这里就出现了一个根本性的错配(Mismatch):标准扩散模型模拟的是“加随机噪声”,而去模糊需要逆转的是“加结构化模糊”。用模拟“撒胡椒面”的模型,去解决“拉面条”的问题,效果自然大打折扣。
有研究者试图改进,比如提出RDDM(Residual Denoising Diffusion Models, 残差去噪扩散模型,引用自[17]),它计算清晰图和模糊图的差值作为“残差”,然后对这个残差进行扩散。但论文作者指出,模糊的形成本质是一个卷积过程,而不是简单的像素相减。用减法来建模,仍然不够精确。
图1:BlurDM是一个基于扩散的网络,它利用模糊形成的归纳偏置进行动态场景去模糊。它在正向过程中逐步添加噪声和模糊,并在逆向过程中迭代估计并移除它们以恢复清晰图像。
那么,正确的思路应该是什么?论文的答案呼之欲出:让扩散过程模拟模糊的物理形成过程!这就是BlurDM(Blur Diffusion Model, 模糊扩散模型)的核心思想。如上图所示,它不再仅仅扩散噪声,而是进行“双扩散”——同时扩散噪声和模糊。
BlurDM:双扩散与双去噪的创新
BlurDM的整体框架非常清晰,它包含三个核心阶段,旨在作为一个灵活的“先验生成网络”来增强现有的任何去模糊模型。我们先来看它的宏观设计。
图2:本方法的整体框架。(a) 阶段1:预训练清晰编码器(SE)、先验融合模块(PFM)和去模糊网络,以获得清晰先验ZS。(b) 阶段2:优化模糊编码器(BE)和BlurDM,以从模糊图像中学习扩散先验Z0B。(c) 阶段3:联合优化BE、PFM、BlurDM和去模糊网络,生成最终的去模糊图像。
阶段1:获取“理想”先验。这个阶段的目标是建立一个性能上限。给定一张模糊图B和对应的清晰图S,通过一个清晰编码器(SE)提取出一个代表“清晰信息”的先验向量ZS。然后通过一个先验融合模块(PFM),将这个先验向量像“调料”一样,融合到去模糊网络解码器的每一层特征中,指导网络生成清晰的图像。这个阶段训练完成后,我们就知道,如果有一个完美的清晰先验,去模糊网络能表现得多好。
阶段2:训练BlurDM生成先验。测试时我们没有清晰图S,只有模糊图B。所以这个阶段的目标是:只输入模糊图B,让BlurDM生成一个尽可能接近阶段1中那个理想清晰先验ZS的扩散先验Z0B。具体做法是:用一个结构相同的模糊编码器(BE)从B中提取特征ZB,然后对这个特征进行本文核心的“双扩散”逆向过程(后面会细讲),最终得到Z0B。用Z0B和ZS的差异作为损失,来训练BlurDM和BE。
阶段3:联合微调。将前两个阶段训练好的BE、BlurDM、PFM和去模糊网络联合起来,进行端到端的微调。此时,BlurDM生成的先验Z0B已经能很好地指导去模糊网络了,最终输出高质量的去模糊结果O。
这个三阶段策略非常巧妙,它解耦了先验学习和图像重建,让BlurDM可以专注于学习如何从模糊中推断清晰信息,而不必操心具体的像素级重建细节,大大降低了学习难度。
双噪声与模糊扩散过程解析
现在,让我们深入到BlurDM最精髓的部分——它的“双扩散”机制。这需要一点数学,但龙哥保证用最通俗的方式讲明白。
首先,我们要用数学描述模糊的形成。假设在曝光时间τ内,场景的瞬时亮度是H(τ)。那么最终我们拍到的模糊图像B,就是所有这些瞬时亮度在曝光时间内的平均值:
其中αT是总曝光时间。如果我们只曝光一个非常短的时间α0(α0 < αT),那么拍到的就是一张近乎清晰的图像I0。
BlurDM的关键洞察是:从清晰图I0到完全模糊图B的过程,可以分解为许多小步。每一步,曝光时间延长一点点,模糊就增加一点点,同时我们还可以加入一点点随机噪声。
假设我们从第t-1步到第t步,曝光时间从αt-1增加到αt。那么这一步产生的图像It可以表示为:
这个公式是理解BlurDM的钥匙,我们拆解一下:
(αt-1/αt) It-1:这是上一步图像It-1的缩放。因为曝光时间变长了,之前累积的“光信号”需要按时间比例调整。
(1/αt) et:这是核心创新点!et被称为模糊残差(Blur Residual),它代表了在新增的这段时间间隔 [αt-1, αt] 内,场景变化所累积的“额外模糊”。除以αt是为了平均到整个曝光时间内。注意,这个et是结构化的、有物理意义的,而不是随机噪声。
βt εt:这就是标准扩散模型里的随机高斯噪声项。εt ~ N(0, I) 是标准正态分布噪声,βt是控制噪声强度的系数。
所以,每一步正向扩散,都是在当前图像的基础上,加一点“结构化模糊”和一点“随机噪声”。这完美模拟了真实世界中,照片因曝光时间延长而逐渐变模糊,同时可能伴有传感器噪声的过程。
那么,逆向过程的目标就很明确了:给定最终模糊且有噪的图像IT,我们一步步地“减去”估计出的模糊残差et和噪声εt,最终恢复出清晰图I0。这就是“双去噪”与“双去模糊”。
但这里有个大问题:我们没有任何数据集中会提供每一步的“真实模糊残差”et作为监督信号!BlurDM如何学习去估计它呢?
论文的解决方案非常聪明:不需要逐步的et真值,只需要最终清晰图I0的真值。通过数学推导(详见论文附录),他们可以将整个T步的正向过程,等价地压缩成一步:
看!最终状态IT,就是输入的那张模糊图B,加上一个总和的噪声项。
双去噪与去模糊过程详解
理解了“双扩散”正向过程后,逆向过程就变得顺理成章了。既然模糊是逐步“加”上去的,那我们就要一步步“减”回来。关键在于,每一步要减去多少模糊(模糊残差et)和多少噪声(εt)。
逆向过程从一个“模糊图+随机噪声”的混合体IT开始。BlurDM网络里有两个核心的小模块:模糊残差估计器和噪声估计器。它们的工作就是“看”到当前这一步的模糊图像It,以及原始模糊输入B,然后猜出这一步需要移除的模糊量和噪声量,分别记作 eθ(It, t, B) 和 εθ(It, t, B)。
在图像空间,每一步逆向迭代的“清洁”操作可以表达为一个清晰的公式:
这个公式就是BlurDM逆向过程的“工作手册”。我们把它拆开看:
第一步,按时间比例调整当前状态((αt/αt-1)It),这对应正向过程中的缩放操作。
第二步,减去估计出的模糊残差(-(1/αt-1)eθ),这相当于把这一步新“长”出来的模糊给擦掉。
第三步,减去调整后的噪声(-(αtβ̅t/αt-1 - β̅t-1)εθ),把这一步添加的随机噪声也清理掉。
就这样,从IT到IT-1,再到IT-2……最终回到I0,图像从一个模糊嘈杂的状态,被逐步“雕琢”回清晰的原貌。整个过程就像是一个技艺高超的修复师,一边估算着模糊的轨迹将其抹平,一边拂去表面的随机噪点,双管齐下,效果自然比只做一件事要好得多。
潜在BlurDM:高效集成与三阶段训练
直接在千万像素的高分辨率图像上进行多步扩散和去噪,计算量是巨大的,也不够灵活。因此,BlurDM被设计运行在潜在空间(Latent Space)。简单来说,就是把高维的像素图像压缩成一个低维的、信息密集的特征向量(即“潜变量”),在这个向量空间里进行扩散和重建。这大大降低了计算复杂度,也让BlurDM可以作为一个即插即用的先验模块,轻松嵌入到任何现有的去模糊网络中。
为了实现这个目标,论文采用了之前提到的三阶段训练策略。这个策略的设计非常精妙:
第一阶段相当于“开卷考”,用真实的清晰图像教会网络什么才是好的“清晰先验”。这为后续训练提供了一个明确的、高标准的监督信号。
第二阶段是“闭卷自学”,目标是让BlurDM仅凭一张模糊图,就能生成一个接近第一阶段那个“理想清晰先验”的东西。这个阶段只训练BlurDM和模糊编码器,让它们专注于学习“从模糊中推断清晰”这个核心任务。
第三阶段是“团队协作”,把所有组件(BlurDM、编码器、PFM、去模糊网络)联合起来微调,确保生成的先验能被去模糊网络有效利用,最终输出完美的清晰图像。
这种分阶段的训练方式,让每个模块都能各司其职,有效避免了直接端到端训练可能出现的模式崩溃或训练困难,是工程实现上的一个亮点。
实验结果分析
实验设计非常全面且具有说服力。论文选择了四个具有代表性的去模糊模型作为基线(MIMO-UNet, Stripformer, FFTformer, LoFormer),并在四个主流数据集(GoPro, HIDE, RealBlur-J, RealBlur-R)上进行评估。这种跨模型、跨数据集的验证,充分说明了BlurDM作为“插件”的普适性和鲁棒性。
从结果来看,BlurDM带来的性能提升是全面且显著的。这背后的原因正是其核心设计的成功:通过双扩散机制将模糊形成的物理归纳偏置引入模型,使得网络在逆向生成时,对“要去除什么”有了更精确的认知。它不再是盲目地回归一个平均图像,而是有方向、有结构地移除模糊和噪声。
消融实验的设计更是层层递进,有力证明了每个组件的必要性。例如,对比仅用噪声估计器、仅用模糊估计器以及两者合用的结果,清晰显示出“双管齐下”的优势。与DDPM、RDDM等其他扩散先验方法的对比,则直接证明了“将模糊物理过程融入扩散”这一创新点的有效性,超越了简单的残差扩散或标准噪声扩散。三阶段训练策略的消融实验也表明,完整的训练流程对于稳定且高性能的先验学习至关重要。
实验验证:显著提升四大模型性能
话不多说,直接上硬核数据!下面的表格展示了BlurDM加持后,四个去模糊模型在四个数据集上的全面性能提升(PSNR和SSIM越高越好,LPIPS越低越好)。
表1:在GoPro、HIDE、RealBlur-J和RealBlur-R数据集上的定量结果,其中“Baseline”和“BlurDM”分别表示未使用和使用BlurDM的图像去模糊性能。箭头表示改进方向(PSNR↑, SSIM↑, LPIPS↓)。
可以看到,所有指标全线飘绿!平均来看,BlurDM为这些模型带来了0.31dB到0.78dB的PSNR提升,同时SSIM提高,LPIPS(感知损失)降低。尤其在真实世界的RealBlur数据集上,提升更为明显,说明BlurDM对复杂真实模糊的处理能力很强。
光有数字不够直观,我们来看看视觉效果。下图对比了基线模型和加入BlurDM后的去模糊结果。
图4:在GoPro(左)和HIDE(右)数据集上的定性结果。
很明显,BlurDM恢复出的图像纹理更清晰、边缘更锐利、细节更丰富。比如GoPro图中地面的纹理和HIDE图中人物的五官,BlurDM版本都完胜基线模型,更接近真实清晰图像(GT)。
图5:在RealBlur-J数据集上的定性结果。
在更困难的真实模糊数据集上,BlurDM的优势同样显著。它生成的文字更易辨认,建筑结构的线条也更笔直清晰,证明了其在真实场景下的强大实用性。
消融研究:关键组件与策略的有效性
一个好方法必须经得起“拆解”检验。BlurDM做了大量消融实验来证明其每个设计环节都不可或缺。
首先,“双估计器”缺一不可。下表对比了只用噪声估计器、只用模糊估计器和两者都用的效果。
表2:噪声估计器和模糊估计器在GoPro测试集上的有效性。
可以看到,单独使用任何一个估计器都能带来提升,但两者结合(Net4, 即完整的BlurDM)效果最佳,证明了同时建模噪声和模糊的必要性。
其次,BlurDM的设计优于其他先验生成方式。下表对比了不同的先验生成方法。
表3:不同先验生成器在GoPro和RealBlur-J数据集上PSNR的比较。
标准的DDPM扩散先验(Net3)提升有限,甚至和简单的MLP(Net2)差不多,这说明不结合任务特性的通用扩散模型效果不佳。而BlurDM(Net5)显著超越了所有其他方法,包括残差扩散模型RDDM(Net4),这直接证明了其核心创新点的价值。
再来看看三阶段训练策略有多重要。
表6:每个训练阶段在GoPro数据集上的效果。
没有预训练(Net3)或者缺少某个阶段(Net4, Net5),性能都不如完整的三个阶段(Net6)。Net2作为“理论上限”也说明,BlurDM生成的先验已经非常接近理想情况了。
最后,效率如何?这是应用落地的关键。BlurDM在潜在空间运行,只需很少的迭代步数(T=5)就能达到很好效果。可以看到,BlurDM仅带来了平均约4.16G的额外FLOPs、3.33M的参数量以及9毫秒的推理延迟。考虑到它带来的显著性能提升,这点开销可以说是“四两拨千斤”,性价比极高。
下图直观地展示了BlurDM在潜在空间中的逆向过程。从完全模糊的潜在特征Z5B开始,随着逆向步数的增加,解码出的图像It逐渐变得清晰,这证明了BlurDM确实在潜在空间中建模了从模糊到清晰的渐进过程。
图6:从潜在特征Z5B到Z0B的去模糊结果I5到I0,显示随着逆向步数增加,模糊逐渐减少。
总结与未来展望
BlurDM这篇论文,给龙哥的感觉就是“思路清晰,直击要害”。它没有在复杂的网络结构上堆料,而是回归问题本质,抓住了“标准扩散过程与模糊物理形成过程不匹配”这个核心矛盾。通过提出双噪声与模糊扩散、双去噪与去模糊的框架,巧妙地将物理先验嵌入到强大的生成模型中,实现了性能的显著飞跃。
其设计亮点颇多:在潜在空间运行保证了效率;三阶段训练策略确保了稳定和有效的先验学习;作为一个即插即用的模块,它能无缝增强各类现有去模糊模型,展现了出色的通用性。实验结果更是有力地支撑了所有这些设计选择。
当然,论文也坦诚地指出了其局限性。BlurDM主要针对运动模糊建模,对于因失焦产生的散焦模糊可能不那么适用。后者与深度和光学特性相关,形成机制不同。这为未来的研究指明了方向:是否可以设计一个更通用的“物理感知扩散模型”,同时建模多种退化过程?或者将BlurDM的思想扩展到视频去模糊、去雨、去雾等其他底层视觉任务?
无论如何,BlurDM为我们提供了一个绝佳的范例:将领域知识(物理模型)与前沿的生成式AI(扩散模型)深度融合,往往能产生“1+1>2”的化学反应。它不仅仅是又一个SOTA模型,更是一种方法论上的启发。