我们提出了一个端到端可训练的卷积神经网络(CNN),命名为GridDehazeNet,用于单幅图像去雾。GridDehazeNet由三个模块组成:预处理、主干和后处理。与由手动预处理方法产生的那些导出输入相比,可训练预处理模块可以产生具有更好多样性和更相关特征的学习输入。主干模块在网格网络上实现了一种新颖的基于注意力的多尺度估计,可以有效缓解传统多尺度方法中经常遇到的瓶颈问题。后处理模块有助于减少最终输出中的伪像。实验结果表明,GridDehazeNet在合成图像和真实图像上均优于当前最先进的方法。
提出的GridDehazeNet是一个端到端的可训练网络,具有三个重要特征。
不依赖大气散射模型:在上述单幅图像去雾方法中,只有AOD网和GFN不依赖大气散射模型。然而,就合成图像上的去雾结果而言,没有提供令人信服的理由来说明为什么忽略该模型有任何好处。从模糊图像中估计t(x)是一个不适定问题。然而,这是令人困惑的,因为估计t(x)(是独立于颜色通道)可能比估计(x)更容易i=1,2,3。
在图2中,我们提供了一种可能的解释,即为什么如果盲目地使用t(x)与颜色通道无关的事实来缩小搜索空间会有问题,以及为什么在搜索最佳t(x)时放松这种约束可能是有利的。然而,通过这种放松,大气散射模型在估计过程中没有提供维数减少。更重要的是,众所周知,CNN的损失面通常表现良好,因为局部最小值通常几乎与全局最小值一样好。另一方面,通过将大气散射模型结合到CNN中,基本上引入了本质上与网络其余部分不同的非线性分量,这可能产生不期望的损耗表面。
可训练的预处理模块:预处理模块通过生成给定模糊图像的几个变体,有效地将单个图像去雾问题转换成多图像去雾问题,每个变体突出该图像的不同方面,并使相关特征信息更明显地暴露。与现有作品中采用的那些手动选择的预处理方法相比,所提出的预处理模块是完全可训练的,这符合数据驱动方法优于基于先验的方法的一般偏好,如图像去雾的最近发展所示。注意,手工选择的处理方法通常旨在增强视觉上可识别的某些具体特征。排除抽象特征是不合理的。事实上,可能存在比图像域更适合后续操作的抽象变换域。可训练的预处理模块具有识别变换域的自由,在该变换域上可以利用更多的分集增益。
基于注意力的多尺度估计:我们在网格网络上实现了多尺度估计。网格网络相对于广泛用于图像恢复的编码器/解码器网络和传统的多尺度网络具有明显的优势。具体而言,编码器-解码器网络或传统多尺度网络中的信息流经常遭受由于分级体系结构而导致的瓶颈效应,而网格网络通过使用上采样/下采样块跨越不同尺度的密集连接来规避这个问题。我们进一步发展了具有通道注意力的网络,允许更灵活的信息交换和聚合。注意机制还使得网络能够更好地利用由预处理模块创建的多样性。
GridDehazeNet由三个模块组成,即预处理模块、主干模块和后处理模块。图3显示了所提出网络的整体架构。
预处理模块由卷积层(w/o激活函数)和残差密集块(RDB) 组成。它从给定的模糊图像生成16个特征图,这些特征图将被称为学习输入。
主干模块是GridNet的增强版本,最初是为语义分割而提出的。它基于预处理模块生成的学习输入来执行基于注意力的多尺度估计。在本文中,我们选择三行六列的网格网络。每行对应不同的比例,由五个RDB块组成,保持特征地图的数量不变。每一列可以被视为通过上采样/下采样模块连接不同尺度的桥梁。在每个上采样(下采样)块中,特征图的大小以因子2减小(增大),而特征图的数量以相同的因子增大(减小)。这里,上采样/下采样是使用卷积层而不是诸如双线性或双三次插值的传统方法来实现的。图4提供了RDB块、上采样块和下采样块的详细说明。每个RDB块由五个卷积层组成:前四层用于增加特征图的数量,而最后一层融合这些特征图,其输出然后通过通道注意力与该RDB块的输入组合。在RDB中的增长率设置为16。上采样块和下采样块在结构上是相同的,除了使用不同的卷积层来调整特征图的大小。在所提出的GridDehazeNet中,除了预处理模块中的第一个卷积层和每个RDB块中的1×1个卷积层,所有卷积层都采用ReLU作为激活函数。为了在输出大小和计算复杂度之间取得平衡,我们将三种不同尺度下的特征图数量分别设置为16、32和64。
直接从主干模块的输出构建的去雾图像往往包含伪像。因此,我们引入后处理模块来提高去雾图像的质量。后处理模块的结构与预处理模块的结构对称。
鉴于来自不同尺度的特征图可能不具有相同的重要性,我们提出了一种受启发的通道式注意机制,以生成用于特征融合的可训练权重。
鉴于来自不同尺度的特征图可能不具有相同的重要性,我们提出了一种受[40]启发的通道式注意机制,以生成用于特征融合的可训练权重。让和分别表示来自行流和列流的第i个特征通道,和表示它们相关的注意权重。基于通道的注意机制可以表示为
其中代表第I个通道中的融合特征。注意机制使网格网能够灵活地调整不同尺度在特征融合中的贡献。我们的实验结果表明,通过引入少量的可训练的注意力权重,所提出的网络的性能可以得到很大的改善。
值得注意的是,作为特例,可以通过选择合适的注意力权重来修剪(或停用)所提出的网格网的一部分,并恢复一些现有的网络。例如,图3中的红色路径说明了一个编码器-解码器网络,它可以通过修剪网格来获得。作为另一个例子,从GridDehazeNet中移除交换分支(即主干模块中的中间四列)导致类似于传统多级网络的结构。
为了训练所提出的网络,采用了平滑损失和感知损失。平滑L1损失提供了去雾图像和地面真实情况之间差异的定量测量,由于L1范数可以防止潜在的梯度爆炸,因此与MSE损失相比,它对异常值不太敏感。
平滑L1损失:让(x)表示去雾图像中像素的第i个颜色通道的强度,并记下像素的总数。平滑损失可以表示为
感知损失:与每像素损失不同,感知损失利用从预先训练的深度神经网络中提取的多尺度特征来量化估计图像和地面真实之间的视觉差异。在本文中,我们使用在ImageNet 上预训练的VGG16 作为损耗网络,并从前三级(即Conv1-2、Conv2-2和Conv3-3)的最后一层提取特征。感知损失被定义为
总损失:总损失通过结合平滑损失和感知损失来定义,如下所示: