论文阅读 Guided Real Image Dehazing Using YCbCr Color Space

张开发
2026/4/18 18:12:09 15 分钟阅读

分享文章

论文阅读 Guided Real Image Dehazing Using YCbCr Color Space
作者Wenxuan Fang, Junkai Fan, Yu Zheng, Jiangwei Weng1, Ying Tai, Jun Li机构School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, ChinaSchool of Intelligence Science and Technology, Nanjing University, Suzhou, China.来源会议The Thirty-Ninth AAAI Conference on Artificial Intelligence (AAAI-25)会议时间与地点2025 年 2 月 25 日至 3 月 4 日Philadelphia, Pennsylvania, USA1. 研究目标过去以及本文使用的方法优势及其创新点1.1 研究目标论文研究的是真实场景图像去雾和去烟real image dehazing。目标是给定一张受雾霾、烟尘影响而模糊、低对比度、颜色失真的图像恢复出清晰、自然、细节丰富的无雾图像。论文认为真实去雾相比合成去雾更难主要有两个痛点第一仅在 RGB 空间中学习去雾映射不够稳定。雾会显著破坏 RGB 特征中的纹理使网络很难从模糊的 RGB 表达中恢复细节。图1直观展示了同样的雾图YCbCr 空间中的特征纹理往往比 RGB 更清晰。第二真实世界缺少高质量、对齐良好的 hazy和clean 配对数据。已有数据集中很多雾图与清晰图由于拍摄时间间隔长、拍摄视角变化、背景不一致等问题不能很好用于监督学习。论文第 2 页图 2 就对比了 MRFID、BeDDE 与作者新数据集 RW²AH 的对齐效果。1.2 过去的方法论文把传统去雾方法大体分为两类。1基于先验/物理模型的方法经典做法基于大气散射模型ASMI(x)J(x)t(x)A(x)(1−t(x))I(x)观测到的雾图J(x)真实清晰图A(x)大气光t(x)透射率这类方法的代表包括暗通道先验、颜色衰减先验等。它们通过估计透射图和大气光来反推清晰图。优点是有物理意义缺点是依赖先验假设和参数估计精度一旦真实场景复杂、雾分布不均匀、光照变化明显效果容易下降。2基于深度学习的映射方法这类方法直接学习从 hazy 到 clean 的端到端映射。相比传统方法它们在合成数据集上通常有更强表现。但在真实场景中又面临两个限制多数方法主要在RGB 空间建模面对真实雾图时容易保留残余雾很多方法训练于合成数据与真实数据存在明显域差异。论文还提到一些真实去雾方法采用 GAN、非配对学习或手工先验引导但这些方法要么容易生成伪影要么仍受限于手工先验。1.3 本文的方法为解决上述问题论文提出 SGDN核心是1.同时使用 RGB 和 YCbCr 两种颜色空间2.用 YCbCr 中更清晰的结构或纹理信息去引导 RGB 特征恢复3.再用 YCbCr 的颜色信息来增强 RGB 的色彩表达4.并构建新的 RW²AH 真实配对去雾数据集支持监督训练。SGDN 的两个关键模块是BGBBi-Color Guidance Bridge作用让 YCbCr 在频域和空间域同时引导 RGB 特征恢复。CEMColor Enhancement Module作用利用 YCbCr 的色差信息增强 RGB 的颜色感知能力避免只恢复结构却丢失自然色彩。1.4 优势与创新点这篇论文的创新点很明确可以概括为四点。创新点 1从单一 的RGB 去雾转变为RGB和YCbCr 协同去雾过去多数深度去雾方法都默认RGB是唯一主工作空间而本文指出在真实雾天条件下YCbCr 特征比 RGB 更不容易被雾破坏能保留更清晰的纹理。这不是简单换颜色空间而是让 YCbCr 成为 RGB 恢复的“引导源”。创新点 2提出 BGB在频域和空间域双重引导BGB不只是简单拼接两个颜色空间特征而是包含两个设计PIMPhase Integration Module频域引导IAMInteractive Attention Module空间域交互注意力这说明作者不是粗糙地融合双分支而是把“结构信息”和“注意力区域”都分开建模。创新点 3提出 CEM 强化颜色恢复很多去雾模型容易出现两种问题去雾不彻底去完雾后颜色不自然CEM 就是专门解决第二个问题。它利用 YCbCr 的色彩通道信息增强 RGB 颜色感知改善视觉自然度。创新点 4构建 RW²AH 数据集作者提出了RW²AHReal-World Well-Aligned Haze包含 1758 对真实配对图像训练集 1406 对测试集 352 对。相比之前的 BeDDE 和 MRFIDRW²AH 具有数据量更大场景更丰富对齐更好更适合监督学习这是本文的重要工程贡献也是实验效果强的重要基础。2. 文中算法主要思想重点解释原理和专业名词2.1 论文总体思路SGDN的整体架构含提出的双色引导桥BGB和色彩增强模型CEM整体是一个非对称的编码器-解码器结构并且RGB分支和 YCbCr 分支共享编码器。大致流程为输入 hazy RGB 图像把图像从 RGB 转换到 YCbCr两个颜色空间分别提取特征通过 BGB 用 YCbCr 引导 RGB 恢复更清晰的纹理通过 CEM 用 YCbCr 增强 RGB 的色彩表达解码输出最终去雾结果。2.2 疑问RGB 和 YCbCr的区别RGB 是什么RGB 是最常见的颜色表示方式R红 G绿 B蓝图像中的每个像素都由这三个通道共同表示。优点是直观、通用。缺点是亮度、颜色、纹理信息混在一起。在雾天中雾会同时污染三个通道导致纹理和边缘都变模糊。YCbCr 是什么YCbCr 是一种把 亮度 和 色度 分离的颜色空间 Y亮度 Cb蓝色色差分量 Cr红色色差分量直观上可以理解为Y 决定明暗 Cb/Cr 决定颜色的偏向因为雾对场景的影响很多时候首先表现为亮度对比下降、颜色趋向中性所以在 YCbCr 中某些色度信息和局部结构反而更容易保留。论文因此发现YCbCr 中的纹理在雾天里更清晰、更适合作为 RGB 去雾的引导信息。疑问文章为什么不直接在 YCbCr 中输出结果论文也指出如果完全在YCbCr 中处理再转换回RGB可能会带来颜色失真因为颜色空间转换会引入误差尤其在复杂网络中误差会放大。所以本文的策略不是用YCbCr替代RGB而是让 YCbCr 引导 RGB 恢复但最终还是在 RGB 表达上输出更自然的结果。2.3 BGB双颜色引导桥BGB 是 SGDN 的核心模块它的作用可以概括为把 YCbCr 分支中更清晰的结构和颜色信息逐步注入到 RGB 分支中使 RGB 特征恢复出更清楚的纹理。BGB 包含两个子模块PIMPhase Integration ModuleIAMInteractive Attention Module2.4 PIM相位集成模块1频域是什么一张图像通常在空间域中表示也就是我们直接看到的像素。但通过傅里叶变换FFT图像还能表示为频域信号。频域里常见两个概念幅度谱Amplitude Spectrum相位谱Phase Spectrum2相位谱和幅度谱有什么区别简单理解幅度谱像是在描述某种频率成分有多强相位谱像是在描述这些结构是怎么排列的图像的边缘、形状、结构轮廓很大程度上由相位谱决定。论文指出清晰图和雾图在相位谱上的差异相对较小但相位谱更能传递结构信息也更抗对比度失真和噪声。因此相位比幅度更适合用来恢复纹理。论文流程是对RGB特征做平均池化得到更平滑的结构表示对YCbCr 特征做最大池化保留更强的细节和颜色响应对二者做 FFT分离出幅度谱和相位用卷积处理相位谱把 RGB 和 YCbCr 的相位信息融合得到一个混合相位谱再结合恢复后的幅度谱用 IFFT 变回空间域特征4为什么这样做有效因为RGB的结构表达比较粗但容易受雾污染YCbCr 的结构细节更清晰。将两者相位融合后相当于保留 RGB 的整体图像组织,补充 YCbCr 的清晰纹理结构因此 PIM 本质上是在频域层面做结构修复。2.5 IAM交互注意力模块如果说 PIM 主要处理频域结构那么 IAM 主要处理空间域的重要区域。什么是注意力机制注意力机制可以理解为让网络自动判断哪里更重要然后对重要区域分配更高权重。IAM 的工作方式论文中IAM 使用Cross-Attention 和 FFN前馈网络做法是RGB 特征作为 query从 YCbCr 特征里取 key或valueYCbCr 特征也反向从 RGB 中取信息两个分支相互查询、相互增强再把增强后的注意力特征上采样、经过 sigmoid 门控去调制下一阶段的特征。这一步的意义它不是简单地把两个特征加起来而是让网络学会哪些位置是 RGB 不可靠需要 YCbCr 帮助的哪些区域是细节边缘、纹理丰富区域应该重点增强因此 IAM 可以理解为在空间域中进行跨颜色空间的重点信息传递。2.6 CEM颜色增强模块PIM 和 IAM 更偏向结构恢复但结构清晰不代表颜色自然。所以论文又设计了 CEM。CEM 的核心想法在 YCbCr 中Y 更多表示亮度Cb Cr 反映颜色偏移而雾会让颜色趋于灰白、中性。所以作者希望利用 YCbCr 的色度信息来增强 RGB 的颜色感知。具体机制论文做了三步对 YCbCr 特征做通道均值处理去掉全局光照/雾的影响突出局部颜色变化用全局平均池化和 softmax 得到颜色分布权重用这个权重调制 RGB 特征再加上 YCbCr 特征得到输出。作用CEM 的作用是增强颜色对比保持色调自然让去雾后的图像不只是清晰而且“看起来真实”2.7 训练损失论文使用的是多尺度损失multi-scale loss在三个尺度上监督输出10.50.25每个尺度的损失由三部分组成L1 损失约束像素级接近SSIM 损失约束结构相似性FFT 损失约束频域一致性权重分别为L11.0SSIM0.5FFT0.1这既关注像素恢复也关注结构恢复还关注频域特征一致性。3. 实验结果3.1 数据集论文实验用了三个真实世界数据集。1RW²AH作者提出这是本文最重要的数据集。总数1758 对训练集1406 对测试集352 对来源来自全球在线固定摄像头场景山地、植被、建筑、道路等地域覆盖亚洲、欧洲、美洲 12 个国家雾浓度分布轻雾 40% 中雾 38% 重雾 22%2RWSReal-World Smoke由 I-HAZE、O-Haze、NH-Haze 组成总计155 对按论文设置147 对训练 8 对测试3RTTS来自 RESIDE4322 张无 GT只用于测试无参考指标。3.2 评价指标论文使用了四个指标1PSNR峰值信噪比。衡量恢复图像和 GT 的像素接近程度。越高越好。2SSIM结构相似性。衡量图像在亮度、对比度、结构上的相似性。越高越好。3FADE无参考雾密度评价指标用来衡量图像中雾的残留程度。越低越好。4NIQE无参考自然图像质量评价指标。越低越好。数值越低说明图像越自然。这些指标组合起来的好处是既有参考指标PSNR/SSIM也有无参考指标FADE/NIQE评价更全面。3.3 定量实验真实世界雾霾数据集的定量研究论文给出了与多种 SOTA 方法的对比结果1在 RWS 上的结果SGDN 的结果为PSNR 23.41SSIM 0.790FADE 0.3042NIQE 3.4365这说明在真实烟雾场景中SGDN 无论是去雾彻底程度还是图像自然度都更优。2在 RW²AH 上的结果SGDN 的结果为PSNR 22.26SSIM 0.668FADE 0.4001NIQE 5.0080从表 1 看SGDN 在 RW²AH 上四项指标整体都很强尤其在 PSNR、SSIM 和 FADE 上表现突出。3在 RTTS 上的结果SGDN 在 RTTS 上的结果为FADE 0.4611NIQE 5.2114由于RTTS无GT所以只比较无参考指标。论文指出SGDN 取得了最优的 FADE说明去雾能力很强NIQE 也具有竞争力。3.4 定性实验1RWS 视觉结果真实世界烟雾数据集上的视觉对比结果第 6 页图 5 显示在真实烟雾图像上PSD、MB-Taylor、DehazeFormer、RIDCP等方法在浓烟区域容易残留雾气DCMPNet 在浓烟下更好但有轻微色偏SGDN去雾更充分结果更接近GT2RW²AH 视觉结果基于我们RW2AH数据集的视觉比较结果PSD 提高了对比度但没有彻底除雾MB-Taylor、RIDCP仍有明显残雾DehazeFormer、DCMPNet虽去雾较强但细节和纹理保持不足SGDN 在去雾程度和自然对比之间平衡最好3RTTS 视觉结果RTTS 数据集上的视觉比较结果在真实街景浓雾条件下多数方法在重雾中仍表现吃力SGDN 的整体可见度恢复最好局部清晰度也更高。3.5 消融实验论文还做了两类重要消融。1不同颜色空间的作用Only RGBOnly YCbCrRGB HSVRGB YUVOursRGB YCbCr结果显示本文方法在真实烟雾和 RW²AH 上都最好。例如 RW²AH 上Only RGBPSNR 18.44 / SSIM 0.417Only YCbCr19.02 / 0.472RGBHSV21.17 / 0.593RGBYUV21.49 / 0.608Ours22.26 / 0.668说明RGBYCbCr 的组合最有效。2BGB 和 CEM 的作用BaselineRW²AH 上 PSNR 19.10BGB21.83CEM21.36BGBCEM22.26也就是说BGB 对性能提升更大因为它直接改善结构和纹理恢复CEM 对视觉质量和颜色自然度帮助明显二者结合时性能最好4. 结论1.YCbCr 在真实雾图中保留了比 RGB 更稳定的纹理和颜色信息因此可以作为 RGB 去雾的重要引导源。2.提出的SGDN通过BGB和CEM两个核心模块实现了频域结构引导间域交互注意力感知增强从而在真实去雾任务中兼顾了去雾强度、纹理恢复和颜色自然度3.作者构建的RW²AH数据集弥补了真实监督去雾中“缺少高质量对齐配对数据”的不足为后续研究提供了更可靠的基准4.从实验上看SGDN 在 RWS、RW²AH 和 RTTS 三个真实数据集上都取得了非常强的表现证明该方法不仅有理论动机也有很强的实际有效性

更多文章