CVPR2022ImageDehazingTransformerwithTransmission-Aware3D代码-深度学习文档类资源-CSDN下载
1. Introduction
单图像去雾的目的是恢复由于 空间雾霾密度变化而导致对比度降低和颜色暗淡的模糊对应物的无雾霾图像。这项任务是一个 长期的和具有挑战性的问题,具有广泛的应用,例如监控系统和自动驾驶系统。为了解决这一不适定问题,基于先验的方法,如暗通道先验(DCP)[14]和颜色衰减先验(CAP)[37],采用先验作为外部信息来估计模糊图像形成 模型的参数。这些方法的鲁棒性有限的,特别是面对具有挑战性的场景。基于cnn的学习能力,基于cnn的脱雾网络通过估计成像模型的参数[25]或直接学习无雾对应的[20],取得了令人印象深刻的性能。然而,这些网络仍然受到建模长期依赖关系和平移等方差[12]的 卷积的局部性质的瓶颈。全球背景和空间变化的操作对于去除雾霾的[8]尤为重要。
虽然 Transformer已经席卷了许多计算机视觉任务[6,21,31],直接使用它在图像脱雾退出一些固有问题: 1)尽管 Transformer能够提供远程功能依赖通过级联自我关注,即使在早期阶段,它 缺乏保留局部功能细节的能力,从而导致 图像重建的模糊和粗糙的细节;2)以往的位置嵌入方法忽略了 不同雾霾密度区域之间的差异,影响了图像脱雾性能。
为了克服这些障碍,我们提出了几种新的设计,使 Transformer的力量到图像去模糊。其主要思想如图1所示。具体来说 Specifically,我们试图结合 Transformer的 全局建模能力和CNN局部表征能力用于图像去雾。为了实现这一目标,给定一个模糊图像 a hazy image,我们通过 a Transformer模块分别 提取层次全局特征,而由CNN模块获得的 相应层次局部特征。提出了一种感知传输(通过 先验信息表示雾密度)的三维位置嵌入模块,该模块为变压器提供了 相对位置信息和雾密度信息,从而提高了图像去雾性能。我们建议 不是简单地连接或添加变压器特征和CNN特征,而是通过一个学习 调制矩阵的特征调制模块来集成这些特征, 从而解决了特征不一致的问题。利用调制后的特征,利用 CNN解码器模块来放大图像的分辨率,并渲染无雾图像的局部细节。
本研究的启发设计可以为基于 Transformer的图像重建提供指导,特别是如何1)通过特征调制继承变形器特征和CNN特征的优势,2)通过位置嵌入将先验信息引入变压器。实验和比较表明,我们的方法(称为DeHamer)优于最先进的图像脱雾方法。
简而言之,我们的贡献如下:
- 与纯基于cnn的图像模糊网络相比,我们的工作是第一次通过新的设计将Transformer的能力引入图像去雾中。
- 我们提出了一种新的传输感知三维位置嵌入,将雾霾密度相关的先验信息涉及到Transformer。
- 在图像去模糊基准数据集上的大量实验证明了我们的方法与最先进的方法相比的突出性能。
2. Related Work
图像去雾。对于单幅图像的去模糊处理,现有的解决方案主要可分为基于 物理模型的方法和基于 深度学习的方法。早期的方法采用雾霾或图像退化相关的先验来估计 透射图和全球大气光,这些是雾霾图像形成模型如大气散射模型[22]的关键参数。沿着这条线,DCP [14]假设非雾霾区域的像素在至少一个颜色通道中具有低强度。随后,提出了多种先验,如色线先验(CLP)[13]和雾霾线先验(HLP)[3]。
随着 CNNs的成功, 基于数据驱动的网络在图像去模糊[7,18,19,34]方面取得了很好的效果。这些方法采用CNNs来 估计大气散射模型的关键参数或直接学习无雾图像。例如,Zhang等人[33]提出了一个密集连接的金字塔网络来估计透射图和大气光。这些估计的参数用于获得无雾霾图像。为了避免多参数估计过程中的累积误差,研究了端到端网络来直接估计无雾图像。例如,Li等人[17]通过重新构建大气散射模型,提出了一个端到端图像去雾的一体化网络。Liu等人[20]提出了一个 包括预处理,主干和后处理的网格网。在网格网络中,采用基于注意力的多尺度估计来实现鲁棒的去模糊结果。Singh等人[26]提出了一种用于图像去模糊的反投影金字塔网络,该网络包含迭代的U-Net块和金字塔卷积块。提出了基于物理模型的特征学习的图像去模糊[10]。除L1和L2损失外,各种损失如对比损失[30]和对抗损失[8,11]已被用于图像去雾网络。
与以往的图像去模糊方法不同,我们将 Transformer的远程建模能力引入到图像去模糊方法中,并通过一系列新的设计,有效地将这种能力与 CNN的局部表示能力结合起来。与以往的位置嵌入方法不同,我们通过三维位置嵌入,将与雾霾密度相关的先验和空间位置信息引入到变压器中。与对参考图像或语义信息施加约束以对齐内容特征的自适应实例归一化[15,16,29]相比,我们利用特征调制来继承CNN和变换器的优势。这些设计产生了最先进的脱雾性能,并为 基于变压器的图像重建提供了见解。
视觉Transformer。 Transformer[28]已成功地应用于自然语言处理任务中。基于其通过堆叠自注意和前馈建模远程依赖的强大能力,它启发了计算机视觉界研究如何将变压器应用于相关任务,如目标检测[5]、图像分割[31]和自动驾驶[23]。例如,Strudel等人[31]将视觉变压器(ViT)扩展到语义分割,而Xie等人[12]在Swin变压器[21]上构建了自监督学习。Chen等人[6]提出了一种用于多任务图像恢复的变压器骨干网;然而,该变压器依赖于大规模的训练数据来获得最佳性能。在现实世界中,图像增强和恢复任务的 大规模配对训练数据是稀缺的。
虽然视觉变压器在提高视觉任务的性能方面做出了很大的努力,但仍然难以直接按照现有的方案有效地将变压器引入图像去模糊任务中。这是因为 Transformer缺乏局部表征能力,不适合图像去雾。因此,我们积极探索精致的设计,结合 Transformer和CNN的最佳世界。
3. Methodology
我们的方法的概述结构如图2所示。给定一个模糊的图像,我们首先通过一个传输感知的三维位置嵌入模块,将一个 与雾密度相关的先验引入到一个 Transformer 模块中。然后,我们的网络通过 Transformer模块和CNN编码器模块分别提取 全局特征和局部特征。然后,我们将 Transformer特征作为条件信息,并将其输入一个特征调制模块来 预测调制矩阵(即系数矩阵和偏置矩阵),这些调制矩阵用于对相应 的CNN编码器特征进行扩展和移动。这样,调制后的 编码器特征增强了局部特征的全局建模能力。根据该方案,对分层变压器特征和CNN编码器特征进行了 自适应集成。最后,通过 CNN解码器模块获得无雾图像, 逐步放大分辨率,呈现局部细节。
在下面的内容中,我们将详细介绍这些模块。更详细的网络结构和参数可以在补充材料中找到。
3.1. 3D Position Embedding
在 vision Transformer中,位置嵌入是保留空间位置信息的关键。然而,以往的位置嵌入是按 逻辑或空间位置顺序提供的,这忽略了模糊图像中不同空间区域的变化雾霾密度。此外,变化雾霾密度对现有的图像去雾霾方法提出了挑战。
为了解决这一问题,我们提出了一种新的图像去雾方法,传输感知三维位置嵌入,将雾密度相关的 先验信息(如 transmission map) 嵌入到位置编码器中。这种方式表明了不同空间区域的雾霾密度。我们期望具有 相似雾霾密度的区域在脱雾过程中可能具有相似的 非线性映射关系。
为了实现这一点,我们首先计算输入的模糊图像 I 的暗通道先验[14]:
其中,Ω(x)是一个以x为中心的局部块。假设 大气背景光的值为1,DCP (I)将为1-t,其中t为透射图[14]。注意,我们选择 暗通道先验生成雾霾密度信息是基于它的鲁棒性能的图像去雾密度。在我们的方法中也可以用其他的先验。
3.2. Network Structure
Transformer模块。为了实现全局环境来处理空间变化的雾霾,我们采用了一种具有很强的建模远程依赖能力的变压器。具体来说,我们采用Swin Transformer[21]作为骨干backbone,基于其有效性和效率之间的良好权衡,提取分层变压器特征。其他的变压器骨干也可以在我们的框架中使用。虽然更大的图像补丁可以提高Swin Transformer[21]的计算效率,但它会在每个补丁周围产生明显的边界伪影。因此,我们没有使用默认的图像补丁大小,即4,而是将补丁大小设置为2。我们只采用三阶段Swin Transformer,其中采用轻量级Transformer参数,即注意头的深度和数量分别设置为[2,2,2]和[3,6,9]。我们并没有通过使用更多的参数来发现明显的收益。
CNN编码器模块。为了获得局部特征,我们采用三个卷积块来提取与三阶段Transformer特征相对应的分层卷积特征。在每个卷积块中,两个卷积层之后是ReLU激活函数。在最后一个卷积层之后,采用最大池化层来减小图像的大小。目的是确保CNN特征的大小与Swin变压器相应特征的大小一致。为了实现更大的接受域,我们在每个卷积块的末端使用了一个金字塔池化模块(PPM)[35],它在四个不同的尺度下融合了特征。
功能调制模块。我们发现,与具有局部注意和清晰细节的CNN特征相比,Transformer提取的特征具有独特的特征,如远程注意,但粗糙的纹理,见图4。我们认为这种差异是基于基于自我注意的变压器特征和基于卷积的CNN特征的本质。因此,直接利用常用的特征融合方法,如连接和加法,可能会产生次优性能。
受风格转移和条件图像增强[16,29]的启发,我们将变换器特征作为条件信息,来预测调制矩阵,然后对CNN特征进行调制。这样,我们期望将变压器的长期关注转移到CNN特征上,而不损害CNN特征的细节,这可以表示为:
CNN解码器模块。最后,我们利用足够的特征表示来重建与输入的模糊图像相同大小的无雾对应物。更具体地说,我们首先将调制后的特征、相应的CNN编码器特征和上采样的解码器特征连接起来。在这里,由于粗纹理,我们放弃了相应的变压器特征。然后,将这些连接的特征输入到一个由三个卷积层组成的卷积块中。然后,我们采用包含多条全卷积流的多尺度残差块[32],产生空间精确的特征,自适应地选择图像去模糊的有效特征。在每个卷积块之后,将遵循一个2×的上采样操作,以扩大分辨率。经过三个卷积块后,这些特征被发送到一个卷积层,以生成一个高质量的无雾霾图像。
4. Experiments
4.1. Experimental Settings
实施细节。我们的方法是在NVIDIA Tesla V100 GPU上使用PyTorch实现的。我们使用带有默认参数的当优化器来优化我们的方法。我们将初始学习速率设置为0.0001,并利用余弦退火策略来调整学习速率直到收敛。我们 不使用复杂的损失函数,我们只使用L1损失来优化我们的网络。我们随机裁剪图像块进行训练,在训练过程中,将图像块的大小从128×128逐渐扩大到全尺寸。
训练和测试数据集。在之前的工作[10,20,30]之后,我们使用 RESIDE[18]的ITS和OTS子集作为训练数据集,并对包含500张室内和500张室外模糊图像的SOTS子集进行评估。此外,我们还在实验中加入了真实世界的 Dense Haze[1]和NH-HAZE [2]数据集。 Dense Haze由45张训练图像、5张验证图像和5张测试图像组成。 NH-HAZE的朦胧图像被捕捉到在密集和均匀的朦胧场景中。NH-Haze还包括45张训练图像,5张验证图像和5张测试图像,分别在密集和非均匀的模糊的场景。
比较方法和评价指标。我们将我们的方法与一种基于先验的方法(DCP [14])和六种最先进的基于深度学习的方法 six state-of-the-art deep learning-based meth ods((DCP[14])[4],AODNet[17],(DCP[14])[20],FFANet[24],MSBDN[9],UHD[36]).如果这些方法可以公开使用,我们将 使用这些方法发布的代码进行公平比较,否则我们将使用与我们的方法 相同的训练数据对它们进行再训练。我们使用常用的PSNR(dB)和SSIM来量化不同方法的脱雾性能。
4.2. Experiments on Synthetic Hazy Images
我们首先比较了在合成模糊图像数据集上的不同方法。从SOTS-室外和SOTS-室内测试集采样的模糊图像的视觉比较分别如图6和图7所示。如图所示,所比较的方法要么对结果保持模糊,要么产生效果颜色偏差,而我们的方法的结果最接近地面真实图像。结果的PSNR和SSIM分数也反映了我们的方法的性能。
此外,表1还对所有测试集的定量结果进行了比较。如上所述,我们的方法在sots-户外游戏上获得了最高的PSNR和SSIM分数。此外,我们的方法的PSNR分数在sots室内比较方法中是最高的,而我们的SSIM评分(0.9881vs0.9886)仅比最先进的FFANet [24]低0.0005。结果表明,我们的方法具有良好的性能,得益于变压器和CNN与新的设计。
4.3. Experiments on Real Hazy Images
为了进一步验证我们的方法的性能,我们比较了从 Dense-Haze和NH-HAZE测试集采样的真实模糊图像的不同方法。可视化结果分别如图8和图9所示。如图8(a)和图9(a)所示,真实的模糊图像 非常具有挑战性,特别是在 非均匀的模糊场景中捕获的模糊图像。与图8中不同方法的结果相比,只有我们的方法才能去除雾霾,恢复与 地面真实图像相似的颜色。此外,我们的结果看起来比比较的 结果更令人满意。对于结果在图9中,只有网格模糊网[20]、MSBDN [9]和我们的方法可以揭示在密集、模糊的场景中捕获的输入图像的结构。相比之下,我们的方法获得了 更真实的结果,并且在 颜色和细节方面更类似于地面真实图像。
对真实模糊图像的定量结果的比较见表2。对于PSNR和SSIM分数,我们的方法在所有测试集上都取得了最好的性能。我们的方法在这两个测试集上的PSNR分数超过了当前的方法1-4 dB。在这些具有挑战性的数据集上的结果进一步证明了我们的方法的有效性和优势。
4.4.消融研究
我们进行了消融研究,以调查我们的设计对图像脱雾性能的影响。研究包括以下消融模型: w/ 2DPE: 2D位置嵌入,即去除我们的变压器模块中的雾霾密度位置;w/o变压器:去除变压器模块,即U-Net样CNN进行图像去模糊;w/o ConvE:删除CNN编码器模块,即变压器模块后跟CNN解码器;没有PPM:删除CNN编码器模块中的金字塔整形模块;w/添加和w/ cat:用添加的特征或特征连接替换特征调制块;没有MRB:去除CNN解码器模块中的多尺度残余块。
这些模型使用与我们的方法相同的训练数据(即完整的模型)进行训练。消融模型在NH-HAZE测试集上的定量结果如表3所示。观察表3,我们可以看到所有的模块都可以提高我们的方法的脱雾性能,这表明了我们的设计的有效性。w/ 2DPE的结果表明,变压器模块中嵌入的雾霾密度信息对于图像去雾化至关重要,将PSNR/SSIM从18.90/0.6373提高到20.66/0.6844。此外,去除变压器模块或CNN编码器模块会显著降低性能,说明变压器与CNN的结合是有效的。与常用的特征添加和连接相比,对CNN特征进行了调制以变压器特性为条件,更适合于将变压器特性与CNN特性结合起来。
图10显示了对消融模型的一些可视化比较。如图所示,w/ 2DPE对结果保持模糊,如红色箭头所示。变压器不能很好地处理浓雾霾,而变压器在结果中产生粗糙的细节。无添加无法恢复颜色检查器的颜色,剩余的烟雾可以在其结果中找到。相比之下,我们的完整模型获得了视觉上更令人愉悦的结果,消除了密集的雾霾,恢复了相对较好的细节。视觉比较再次证明了我们的模块的有效性。
5. Conclusion
在此工作中,我们提出了一种新的单图像去模糊处理方法。这项工作的关键见解是有效地整合变压器特征和CNN特征,并将任务特定于之前的领域知识引入变压器,以提高性能。利用特征调制使我们的方法能够享受变压器和CNN的最佳世界。此外,我们发现通过三维位置嵌入可以有效地将先验信息引入变压器,进一步提高了脱雾性能。广泛的比较表明,我们的方法在合成和真实的基准数据集上达到了最先进的性能。