五指山市网站建设_网站建设公司_漏洞修复_seo优化-伊春市网站建设公司

论文标题: BlurDM: A Blur Diffusion Model for Image Deblurring

发表日期: 2025年12月

作者: Jin-Ting He, Fu-Jen Tsai, Yan-Tsung Peng, Min-Hung Chen, Chia-Wen Lin, Yen-Yu Lin

发表单位:National Yang Ming Chiao Tung University, National Tsing Hua University, National Chengchi University,

NVIDIA原文链接: https://arxiv.org/pdf/2512.03979v2

项目链接: https://jin-ting-he.github.io/Blur-Diffusion-Model/

图像去模糊的困境与突破

图像去模糊，简单说就是给一张“糊了”的照片，还原出它原本清晰的样子。这听起来像是魔法，但在数学上却是一个典型的“病态问题”（Ill-posed Problem）。为什么这么说？因为一张模糊照片，可能是由无数种不同的清晰照片，经过不同的运动轨迹模糊后形成的。就像你只知道一个模糊的影子，却要猜出原本物体的精确形状，信息严重不足。

早期的深度学习方法，无论是基于CNN（卷积神经网络）还是Transformer，都取得了长足的进步。它们通过学习海量的“模糊-清晰”图像对，试图找到一个从模糊到清晰的映射函数。但这类方法通常使用回归损失（如L1、L2损失）进行训练，这会导致一个致命问题：模型倾向于输出一个“平均”的、安全的答案，也就是过度平滑（Over-smoothed）的结果。恢复的图像虽然不模糊了，但高频细节（比如发丝、纹理、边缘）也丢失了，看起来像是被磨皮过度，缺乏真实感。

于是，研究者们把目光投向了生成模型，特别是扩散模型。扩散模型的核心思想是“先破坏，再重建”：在正向过程中，它逐步向一张清晰图片添加随机高斯噪声，直到图片变成纯噪声；在逆向过程中，它再一步步从纯噪声中“去噪”，最终生成一张全新的清晰图片。这个过程能产生细节丰富、纹理逼真的图像，完美契合了去模糊任务对高质量细节的需求。

一些先驱工作已经尝试将扩散模型作为“先验生成器”，为去模糊网络提供高质量的图像先验信息，取得了一定效果。但总感觉差了那么一口气，没有把扩散模型的潜力完全发挥出来。问题出在哪里？

扩散模型在去模糊中的局限

标准扩散模型是为无条件图像生成设计的，它的“破坏”手段是添加各向同性的随机高斯噪声。这种噪声没有方向，没有结构，均匀地污染每一个像素。

但运动模糊（Motion Blur）的形成过程完全不同！它源于相机曝光时间内，传感器对连续场景的积分。想象一下，你拿着相机快速平移，场景中的每个点都会在传感器上拖出一条轨迹，这些轨迹相互叠加，就形成了模糊。这种模糊是有结构的、有方向的、非均匀的，并且是渐进累积的——曝光时间越长，模糊越严重。

这里就出现了一个根本性的错配（Mismatch）：标准扩散模型模拟的是“加随机噪声”，而去模糊需要逆转的是“加结构化模糊”。用模拟“撒胡椒面”的模型，去解决“拉面条”的问题，效果自然大打折扣。

有研究者试图改进，比如提出RDDM（Residual Denoising Diffusion Models，残差去噪扩散模型，引用自[17]），它计算清晰图和模糊图的差值作为“残差”，然后对这个残差进行扩散。但论文作者指出，模糊的形成本质是一个卷积过程，而不是简单的像素相减。用减法来建模，仍然不够精确。

图1：BlurDM是一个基于扩散的网络，它利用模糊形成的归纳偏置进行动态场景去模糊。它在正向过程中逐步添加噪声和模糊，并在逆向过程中迭代估计并移除它们以恢复清晰图像。

那么，正确的思路应该是什么？论文的答案呼之欲出：让扩散过程模拟模糊的物理形成过程！这就是BlurDM（Blur Diffusion Model，模糊扩散模型）的核心思想。如上图所示，它不再仅仅扩散噪声，而是进行“双扩散”——同时扩散噪声和模糊。

BlurDM：双扩散与双去噪的创新

BlurDM的整体框架非常清晰，它包含三个核心阶段，旨在作为一个灵活的“先验生成网络”来增强现有的任何去模糊模型。我们先来看它的宏观设计。

图2：本方法的整体框架。(a) 阶段1：预训练清晰编码器（SE）、先验融合模块（PFM）和去模糊网络，以获得清晰先验ZS。(b) 阶段2：优化模糊编码器（BE）和BlurDM，以从模糊图像中学习扩散先验Z0B。(c) 阶段3：联合优化BE、PFM、BlurDM和去模糊网络，生成最终的去模糊图像。

阶段1：获取“理想”先验。这个阶段的目标是建立一个性能上限。给定一张模糊图B和对应的清晰图S，通过一个清晰编码器（SE）提取出一个代表“清晰信息”的先验向量ZS。然后通过一个先验融合模块（PFM），将这个先验向量像“调料”一样，融合到去模糊网络解码器的每一层特征中，指导网络生成清晰的图像。这个阶段训练完成后，我们就知道，如果有一个完美的清晰先验，去模糊网络能表现得多好。

阶段2：训练BlurDM生成先验。测试时我们没有清晰图S，只有模糊图B。所以这个阶段的目标是：只输入模糊图B，让BlurDM生成一个尽可能接近阶段1中那个理想清晰先验ZS的扩散先验Z0B。具体做法是：用一个结构相同的模糊编码器（BE）从B中提取特征ZB，然后对这个特征进行本文核心的“双扩散”逆向过程（后面会细讲），最终得到Z0B。用Z0B和ZS的差异作为损失，来训练BlurDM和BE。

阶段3：联合微调。将前两个阶段训练好的BE、BlurDM、PFM和去模糊网络联合起来，进行端到端的微调。此时，BlurDM生成的先验Z0B已经能很好地指导去模糊网络了，最终输出高质量的去模糊结果O。

这个三阶段策略非常巧妙，它解耦了先验学习和图像重建，让BlurDM可以专注于学习如何从模糊中推断清晰信息，而不必操心具体的像素级重建细节，大大降低了学习难度。

双噪声与模糊扩散过程解析

现在，让我们深入到BlurDM最精髓的部分——它的“双扩散”机制。这需要一点数学，但龙哥保证用最通俗的方式讲明白。

首先，我们要用数学描述模糊的形成。假设在曝光时间τ内，场景的瞬时亮度是H(τ)。那么最终我们拍到的模糊图像B，就是所有这些瞬时亮度在曝光时间内的平均值：

其中αT是总曝光时间。如果我们只曝光一个非常短的时间α0（α0 < αT），那么拍到的就是一张近乎清晰的图像I0。

BlurDM的关键洞察是：从清晰图I0到完全模糊图B的过程，可以分解为许多小步。每一步，曝光时间延长一点点，模糊就增加一点点，同时我们还可以加入一点点随机噪声。

假设我们从第t-1步到第t步，曝光时间从αt-1增加到αt。那么这一步产生的图像It可以表示为：

这个公式是理解BlurDM的钥匙，我们拆解一下：

(αt-1/αt) It-1：这是上一步图像It-1的缩放。因为曝光时间变长了，之前累积的“光信号”需要按时间比例调整。

(1/αt) et：这是核心创新点！et被称为模糊残差（Blur Residual），它代表了在新增的这段时间间隔 [αt-1, αt] 内，场景变化所累积的“额外模糊”。除以αt是为了平均到整个曝光时间内。注意，这个et是结构化的、有物理意义的，而不是随机噪声。

βt εt：这就是标准扩散模型里的随机高斯噪声项。εt ~ N(0, I) 是标准正态分布噪声，βt是控制噪声强度的系数。

所以，每一步正向扩散，都是在当前图像的基础上，加一点“结构化模糊”和一点“随机噪声”。这完美模拟了真实世界中，照片因曝光时间延长而逐渐变模糊，同时可能伴有传感器噪声的过程。

那么，逆向过程的目标就很明确了：给定最终模糊且有噪的图像IT，我们一步步地“减去”估计出的模糊残差et和噪声εt，最终恢复出清晰图I0。这就是“双去噪”与“双去模糊”。

但这里有个大问题：我们没有任何数据集中会提供每一步的“真实模糊残差”et作为监督信号！BlurDM如何学习去估计它呢？

论文的解决方案非常聪明：不需要逐步的et真值，只需要最终清晰图I0的真值。通过数学推导（详见论文附录），他们可以将整个T步的正向过程，等价地压缩成一步：

看！最终状态IT，就是输入的那张模糊图B，加上一个总和的噪声项。

双去噪与去模糊过程详解

理解了“双扩散”正向过程后，逆向过程就变得顺理成章了。既然模糊是逐步“加”上去的，那我们就要一步步“减”回来。关键在于，每一步要减去多少模糊（模糊残差et）和多少噪声（εt）。

逆向过程从一个“模糊图+随机噪声”的混合体IT开始。BlurDM网络里有两个核心的小模块：模糊残差估计器和噪声估计器。它们的工作就是“看”到当前这一步的模糊图像It，以及原始模糊输入B，然后猜出这一步需要移除的模糊量和噪声量，分别记作 eθ(It, t, B) 和 εθ(It, t, B)。

在图像空间，每一步逆向迭代的“清洁”操作可以表达为一个清晰的公式：

这个公式就是BlurDM逆向过程的“工作手册”。我们把它拆开看：

第一步，按时间比例调整当前状态（(αt/αt-1)It），这对应正向过程中的缩放操作。

第二步，减去估计出的模糊残差（-(1/αt-1)eθ），这相当于把这一步新“长”出来的模糊给擦掉。

第三步，减去调整后的噪声（-(αtβ̅t/αt-1 - β̅t-1)εθ），把这一步添加的随机噪声也清理掉。

就这样，从IT到IT-1，再到IT-2……最终回到I0，图像从一个模糊嘈杂的状态，被逐步“雕琢”回清晰的原貌。整个过程就像是一个技艺高超的修复师，一边估算着模糊的轨迹将其抹平，一边拂去表面的随机噪点，双管齐下，效果自然比只做一件事要好得多。

潜在BlurDM：高效集成与三阶段训练

直接在千万像素的高分辨率图像上进行多步扩散和去噪，计算量是巨大的，也不够灵活。因此，BlurDM被设计运行在潜在空间（Latent Space）。简单来说，就是把高维的像素图像压缩成一个低维的、信息密集的特征向量（即“潜变量”），在这个向量空间里进行扩散和重建。这大大降低了计算复杂度，也让BlurDM可以作为一个即插即用的先验模块，轻松嵌入到任何现有的去模糊网络中。

为了实现这个目标，论文采用了之前提到的三阶段训练策略。这个策略的设计非常精妙：

第一阶段相当于“开卷考”，用真实的清晰图像教会网络什么才是好的“清晰先验”。这为后续训练提供了一个明确的、高标准的监督信号。

第二阶段是“闭卷自学”，目标是让BlurDM仅凭一张模糊图，就能生成一个接近第一阶段那个“理想清晰先验”的东西。这个阶段只训练BlurDM和模糊编码器，让它们专注于学习“从模糊中推断清晰”这个核心任务。

第三阶段是“团队协作”，把所有组件（BlurDM、编码器、PFM、去模糊网络）联合起来微调，确保生成的先验能被去模糊网络有效利用，最终输出完美的清晰图像。

这种分阶段的训练方式，让每个模块都能各司其职，有效避免了直接端到端训练可能出现的模式崩溃或训练困难，是工程实现上的一个亮点。

实验结果分析

实验设计非常全面且具有说服力。论文选择了四个具有代表性的去模糊模型作为基线（MIMO-UNet， Stripformer， FFTformer， LoFormer），并在四个主流数据集（GoPro， HIDE， RealBlur-J， RealBlur-R）上进行评估。这种跨模型、跨数据集的验证，充分说明了BlurDM作为“插件”的普适性和鲁棒性。

从结果来看，BlurDM带来的性能提升是全面且显著的。这背后的原因正是其核心设计的成功：通过双扩散机制将模糊形成的物理归纳偏置引入模型，使得网络在逆向生成时，对“要去除什么”有了更精确的认知。它不再是盲目地回归一个平均图像，而是有方向、有结构地移除模糊和噪声。

消融实验的设计更是层层递进，有力证明了每个组件的必要性。例如，对比仅用噪声估计器、仅用模糊估计器以及两者合用的结果，清晰显示出“双管齐下”的优势。与DDPM、RDDM等其他扩散先验方法的对比，则直接证明了“将模糊物理过程融入扩散”这一创新点的有效性，超越了简单的残差扩散或标准噪声扩散。三阶段训练策略的消融实验也表明，完整的训练流程对于稳定且高性能的先验学习至关重要。

实验验证：显著提升四大模型性能

话不多说，直接上硬核数据！下面的表格展示了BlurDM加持后，四个去模糊模型在四个数据集上的全面性能提升（PSNR和SSIM越高越好，LPIPS越低越好）。

表1：在GoPro、HIDE、RealBlur-J和RealBlur-R数据集上的定量结果，其中“Baseline”和“BlurDM”分别表示未使用和使用BlurDM的图像去模糊性能。箭头表示改进方向（PSNR↑， SSIM↑， LPIPS↓）。

可以看到，所有指标全线飘绿！平均来看，BlurDM为这些模型带来了0.31dB到0.78dB的PSNR提升，同时SSIM提高，LPIPS（感知损失）降低。尤其在真实世界的RealBlur数据集上，提升更为明显，说明BlurDM对复杂真实模糊的处理能力很强。

光有数字不够直观，我们来看看视觉效果。下图对比了基线模型和加入BlurDM后的去模糊结果。

图4：在GoPro（左）和HIDE（右）数据集上的定性结果。

很明显，BlurDM恢复出的图像纹理更清晰、边缘更锐利、细节更丰富。比如GoPro图中地面的纹理和HIDE图中人物的五官，BlurDM版本都完胜基线模型，更接近真实清晰图像（GT）。

图5：在RealBlur-J数据集上的定性结果。

在更困难的真实模糊数据集上，BlurDM的优势同样显著。它生成的文字更易辨认，建筑结构的线条也更笔直清晰，证明了其在真实场景下的强大实用性。

消融研究：关键组件与策略的有效性

一个好方法必须经得起“拆解”检验。BlurDM做了大量消融实验来证明其每个设计环节都不可或缺。

首先，“双估计器”缺一不可。下表对比了只用噪声估计器、只用模糊估计器和两者都用的效果。

表2：噪声估计器和模糊估计器在GoPro测试集上的有效性。

可以看到，单独使用任何一个估计器都能带来提升，但两者结合（Net4，即完整的BlurDM）效果最佳，证明了同时建模噪声和模糊的必要性。

其次，BlurDM的设计优于其他先验生成方式。下表对比了不同的先验生成方法。

表3：不同先验生成器在GoPro和RealBlur-J数据集上PSNR的比较。

标准的DDPM扩散先验（Net3）提升有限，甚至和简单的MLP（Net2）差不多，这说明不结合任务特性的通用扩散模型效果不佳。而BlurDM（Net5）显著超越了所有其他方法，包括残差扩散模型RDDM（Net4），这直接证明了其核心创新点的价值。

再来看看三阶段训练策略有多重要。

表6：每个训练阶段在GoPro数据集上的效果。

没有预训练（Net3）或者缺少某个阶段（Net4， Net5），性能都不如完整的三个阶段（Net6）。Net2作为“理论上限”也说明，BlurDM生成的先验已经非常接近理想情况了。

最后，效率如何？这是应用落地的关键。BlurDM在潜在空间运行，只需很少的迭代步数（T=5）就能达到很好效果。可以看到，BlurDM仅带来了平均约4.16G的额外FLOPs、3.33M的参数量以及9毫秒的推理延迟。考虑到它带来的显著性能提升，这点开销可以说是“四两拨千斤”，性价比极高。

下图直观地展示了BlurDM在潜在空间中的逆向过程。从完全模糊的潜在特征Z5B开始，随着逆向步数的增加，解码出的图像It逐渐变得清晰，这证明了BlurDM确实在潜在空间中建模了从模糊到清晰的渐进过程。

图6：从潜在特征Z5B到Z0B的去模糊结果I5到I0，显示随着逆向步数增加，模糊逐渐减少。

总结与未来展望

BlurDM这篇论文，给龙哥的感觉就是“思路清晰，直击要害”。它没有在复杂的网络结构上堆料，而是回归问题本质，抓住了“标准扩散过程与模糊物理形成过程不匹配”这个核心矛盾。通过提出双噪声与模糊扩散、双去噪与去模糊的框架，巧妙地将物理先验嵌入到强大的生成模型中，实现了性能的显著飞跃。

其设计亮点颇多：在潜在空间运行保证了效率；三阶段训练策略确保了稳定和有效的先验学习；作为一个即插即用的模块，它能无缝增强各类现有去模糊模型，展现了出色的通用性。实验结果更是有力地支撑了所有这些设计选择。

当然，论文也坦诚地指出了其局限性。BlurDM主要针对运动模糊建模，对于因失焦产生的散焦模糊可能不那么适用。后者与深度和光学特性相关，形成机制不同。这为未来的研究指明了方向：是否可以设计一个更通用的“物理感知扩散模型”，同时建模多种退化过程？或者将BlurDM的思想扩展到视频去模糊、去雨、去雾等其他底层视觉任务？

无论如何，BlurDM为我们提供了一个绝佳的范例：将领域知识（物理模型）与前沿的生成式AI（扩散模型）深度融合，往往能产生“1+1>2”的化学反应。它不仅仅是又一个SOTA模型，更是一种方法论上的启发。

五指山市网站建设_网站建设公司_漏洞修复_seo优化

图像去模糊的困境与突破

扩散模型在去模糊中的局限

BlurDM：双扩散与双去噪的创新

双噪声与模糊扩散过程解析

双去噪与去模糊过程详解

潜在BlurDM：高效集成与三阶段训练

实验结果分析

实验验证：显著提升四大模型性能

消融研究：关键组件与策略的有效性

总结与未来展望

热门文章

文章分类

标签云

需要专业的网站建设服务？

五指山市网站建设_网站建设公司_漏洞修复_seo优化

图像去模糊的困境与突破

扩散模型在去模糊中的局限

BlurDM：双扩散与双去噪的创新

双噪声与模糊扩散过程解析

双去噪与去模糊过程详解

潜在BlurDM：高效集成与三阶段训练

实验结果分析

实验验证：显著提升四大模型性能

消融研究：关键组件与策略的有效性

总结与未来展望

热门文章

文章分类

标签云

相关文章

Kotaemon背后的团队是谁？探访这个神秘开源组织

如何评价谷歌发布新一代图像生成模型 Nano Banana Pro，有哪些亮点？

千兆级以太网ESD保护方案

需要专业的网站建设服务？