【Markovian:GAN:IVIF】

GAN-FM: Infrared and Visible Image Fusion Using GAN With Full-Scale Skip Connection and Dual Markovian Discriminators

(GAN-FM: 使用具有全尺寸跳过连接和双Markovian鉴别器的GAN进行红外和可见光图像融合)
以前的融合方法通常不能充分利用信息,因此它们的融合结果会牺牲热目标的显着性或纹理的清晰度。为了应对这一挑战,我们提出了一种新颖的生成对抗网络,该网络具有完整的跳过连接和dual Markovian鉴别器 (GAN-FM),以充分保留红外和可见图像中的有效信息。
首先,设计了一种全比例尺跳跃连接生成器,用于提取和融合不同比例尺的深层特征,可以促进浅层高对比度特征直接传输到深层,从语义层面保留热辐射目标。因此,融合后的图像可以保持显著的对比度。
其次,我们提出了两个Markovian判别器来与生成器建立对抗博弈,以便同时估计红外和可见模态的概率分布。与传统的全局鉴别器不同,Markovian鉴别器试图区分输入图像的每个补丁,因此网络的注意力仅限于局部区域,并且融合的结果被迫包含更多细节。此外,我们提出了一种有效的关节梯度损失,以确保对比度和纹理的和谐共存,从而防止了由于高对比度目标区域的边缘扩散而引起的背景纹理污染。广泛的定性和定量实验表明,我们的GAN-FM在保持显着的对比度和丰富的纹理方面优于最新方法。此外,我们将通过我们的方法生成的融合图像应用于目标检测和图像分割,可以有效地提高性能。

介绍

具体地,可见传感器捕获场景的丰富反射光,因此生成的可见图像具有高空间分辨率和丰富的场景纹理的特征。但是,可见图像过度依赖于天气条件,在夜间或朦胧条件下生成的图像质量总是很差。相反,红外图像通过捕获热辐射信息来克服环境限制,从而可以有效地将目标与背景区分开。通过融合红外和可见图像,可以获得具有高对比度和丰富纹理的所需融合图像。由于这种优异的特性,红外和可见光图像融合已广泛应用于军事监视,物体检测和识别以及车辆夜间导航等许多领域 。
【Markovian:GAN:IVIF】_第1张图片
图1提供了一个典型的示例来演示图像融合的好处,其中红外,可见和我们的融合图像在经过良好训练的YOLOv5上进行了对象检测和识别测试。可以看出,可见光图像中具有空间显着性的所有纹理结构和红外图像中具有高对比度的热目标都被传输到融合结果。结果,与单模图像相比,可以在融合图像中检测 “car” 和 “person”,并且它们的识别精度也得到提高。
在过去的几十年中,已经提出了许多实现红外和可见光图像融合的方法,根据其原理可以将其分为两类: 传统方法和基于深度学习的方法。传统方法通常使用相关的数学变换从源图像中提取特征,并根据一些融合策略进行特征融合。通过对融合的特征进行反向变换来获得最终的融合图像。传统的融合方法包括基于多尺度变换的方法,基于稀疏表示的方法,基于显著性的方法,混合方法等方法 。
传统方法通常具有有限的融合性能。首先,采用固定数学变换提取的特征的表达能力较弱,没有考虑源图像之间的模态差异。其次,传统的融合策略非常粗糙,以至于无法有效地保留有用的信息。
依靠神经网络强大的特征提取和非线性拟合能力,基于深度学习的方法通常可以实现远远超过传统方法的融合性能。根据所采用的网络体系结构,当前基于深度学习的方法可以分为基于卷积神经网络 (CNN),基于自动编码器 (AE) 和基于生成对抗网络 (GAN) 的方法。例如,PMGI,SDNet和U2Fusion 提出了基于CNNs的统一图像融合框架,可以实现各种图像融合任务,并获得相当有前途的融合效果。如果CNN和DenseFuse使用预先训练的AE网络实现特征提取和图像重建,而特征融合则通过一些传统的融合策略 (例如,最大值,加法和均值) 来实现。FusionGAN,DDcGAN和GANMcC是三种典型的基于GAN的方法,它们在融合图像和源图像之间建立对抗博弈,以迫使融合图像具有源模态的分布特性。尽管当前基于深度学习的方法在大多数情况下效果很好,但仍然存在一些缺点。一方面,这些方法的网络不包含下样本运算符,并且无法充分利用全尺度的信息。结果,获得的融合结果更像是原始尺度上的折衷,其中从语义层面上无法保持高对比度。另一方面,现有的基于GAN的方法通常会应用全局判别器在整个图像上构建对抗游戏,这很容易导致融合结果的整体平滑。

为了解决上述挑战,我们提出了一种具有全尺寸跳过连接和双 Markovian判别器的GAN,术语为GAN-FM。我们的模型由一个生成器和两个鉴别器组成
首先,生成器专用于融合红外和可见图像以产生融合结果。为了充分利用融合过程中的多层次和多尺度信息,将生成器设计为基于U形的全尺度连接体系结构。 多层次信息促进了浅对比特征向深层的有效传递,而多尺度信息则从语义层面促进了高对比度目标的保存。
其次,鉴别器专用于区分融合图像和源图像。为了在对抗过程中加强对细粒度纹理的关注,我们采用了Markovian鉴别器区分融合图像和源图像。与传统的全局鉴别器不同,Markovian鉴别器尝试将每个图像补丁分类为真或假,并对所有响应进行平均以获得最终决定。
这种局部鉴别将迫使生成器在融合过程中保留更丰富的纹理细节。此外,我们提出了一种联合梯度损失,以确保高对比度和丰富纹理的和谐共生。具体来说,我们基于源图像构造关节梯度,并要求融合图像的梯度与关节梯度一致。该约束可以有效防止高对比度目标区域的边缘扩散造成的背景纹理污染。

为了直观地展示所提出的GAN-FM的优点,图2提供了一个典型的示例,其中选择了代表性的基于CNN的方法PMGI [25] 、基于AE的方法DenseFuse和基于GAN的方法FusionGAN [30] 进行比较。显然,PMGI,DenseFuse和fusionan都降低了热辐射目标的对比度,并失去了一些纹理细节。在PMGI和FusionGAN的结果中,由于边缘扩散,热目标区域变得模糊。相比之下,我们的GAN-FM可以最好地保持高对比度的目标,保留最丰富的背景纹理,并避免热目标区域的边缘扩散。
【Markovian:GAN:IVIF】_第2张图片

贡献

1)我们设计了一种全比例尺跳跃连接发生器,该生成器可以充分利用融合过程中的多层次和多尺度信息,从而促进融合过程中具有高对比度的热辐射目标的维护。
2)提出了一种在融合图像和源图像之间使用Markovian鉴别器的双重对抗机制,该机制可以增强对高频信息的关注,从而保留更多的纹理细节。
3)我们开发了一种联合梯度损失,以确保高对比度区域和纹理细节的和谐共存,可以有效防止高对比度目标区域的边缘扩散造成的背景纹理污染。
4)将所提出的GAN-FM应用于目标检测和图像分割任务,有效地提高了性能。

相关工作

Deep Learning-Based Fusion Methods

近年来,基于深度学习的方法促进了图像融合领域的巨大发展,其融合性能远远超过了传统方法。这些方法可以分为基于AE的方法,基于CNN的方法和基于GAN的方法。
基于AE的方法通常会预先训练自动编码器网络,然后将其应用于特征提取和图像重建。实际融合过程主要表现为按照常规融合策略进行的中间特征融合。例如,Li等人先后使用ResNet和DenseNet从MS COCO数据集 训练自动编码器。然后,将训练良好的自动编码器与不同的融合策略 (例如,最大、加法和l1-norm) 组合,以实现红外和可见光图像融合。但是,这些方法中当前采用的手工融合策略过于粗糙,无法保证其合理性,从而限制了这些基于AE的方法的融合性能。

对于基于CNN的方法,通过优化设计良好的损失函数来端到端地实现特征提取,特征融合和图像重建。在多曝光图像融合领域,Prabhakar等人通过基于无参考图像质量度量MEF-SSIM优化特定损失函数,提出了一种无监督方法。Zhang等人设计了一个挤压分解网络来完成各种图像融合任务,该网络利用分解一致性来强制网络从源图像中提取更多信息。另一个基于CNN的代表性工作是PMGI ,它提出了梯度和强度的比例维护损失,以指导网络直接生成融合图像。然而,现有的基于CNN的方法要么放弃下样本算子,要么采用过于简单的体系结构,这导致特征利用不足。

基于GAN的方法在生成器和鉴别器之间建立了对抗博弈,可以无监督地估计目标的概率分布,从而以隐式方式实现特征提取,特征融合和图像重建。目前,GAN已成功应用于各种融合任务。FusionGAN 是将GAN引入红外和可见光图像融合的先驱,它利用对抗性学习来减少融合图像和可见光图像之间概率分布的差异,从而促进纹理细节的保留。在多曝光图像融合中,Xu等人引入GAN建立融合图像与曝光良好图像之间的对抗博弈,它可以指导场景细节的保存和照明条件的控制。Zhang等人提出的MFF-GAN采用对抗性学习来强制融合图像的梯度近似构造的联合梯度,从而增强聚焦区域纹理的维护。尽管以前的基于GAN的方法取得了相对较好的结果,但仍然存在一些缺点。首先,他们使用的全局鉴别器很容易导致融合结果的过度平滑。其次,所使用的内容损失函数是倾斜的,这使得背景纹理被高对比度的目标区域污染。

基于对这些限制的观察,我们提出了一种具有全尺寸跳过连接和双马尔可夫鉴别器以及特定内容损失的新GAN,可以实现高质量的红外和可见光图像融合。

GAN

1) Original GAN: 2014年,Goodfellowet 首次将两人游戏的思想引入到生成模型中,并提出了著名的原始GAN。具体来说,GANmodel由两部分组成: 生成器和鉴别器。其中,生成器专门用于从随机噪声中生成符合目标分布的假数据,而判别器则试图将真实数据与生成器产生的假数据区分开。在迭代对抗训练中,生成器不断提高伪造能力,判别器不断提高辨别能力。当鉴别器无法区分真实数据和假数据时,可以认为生成的数据是期望的,符合目标分布。
2) PatchGAN: 马尔可夫鉴别器 (PatchGAN) 是原始GAN的一种变体,它以Patch的比例惩罚结构,可以理解为一种纹理/样式约束。具体来说,马尔可夫鉴别器试图将每个补丁分类为真或假,以便更多地关注局部结构,而不是全局图像。此外,马尔可夫鉴别器在图像补丁中运行,并且所有补丁响应都被平均以产生最终输出。由于PatchGAN可以约束高频结构,因此特别适用于那些具有高细节清晰度要求的视觉任务。研究人员将PatchGAN的想法应用于图像超分辨率,图像去模糊和图像翻译,并取得了良好的效果。在这项工作中,我们将马尔可夫鉴别器应用于红外和可见光图像融合,以加强纹理细节的保存。

方法

Overall Framework

【Markovian:GAN:IVIF】_第3张图片

GAN-FM的整体框架如图3所示,其中包含一个生成器和两个鉴别器。给定一对配准的红外图像Iir和可见图像Ivi,生成器旨在从两个源图像中提取和组合有意义的信息,从而产生逼真的融合图像,如果要欺骗鉴别器。相反,两个鉴别器Dvi和Dir旨在正确区分融合的结果和源图像。结果,生成器和鉴别器之间的对抗性游戏迫使融合的结果在源图像中包含独特的关键字符,例如Iir中的热信息和Ivi中的场景纹理。为了进一步加强这两类信息的保存,我们专门设计了生成器和判别器。

首先,我们采用全尺寸连接的思想来设计基于U形的生成器,该生成器可以提取和利用多尺度和层次特征。跳过连接一方面可以将浅层高对比度特征直接输送到深层,避免了抽象特征造成的热辐射强度损失。另一方面,多尺度网络从语义层面促进了显着特征的保留。因此,具有多尺度体系结构和跳过连接的发生器可以很好地保留源图像的显着特征,尤其是红外图像中的热辐射目标。其次,在提出的框架中使用了两个马尔可夫鉴别器 (即Dvi和Dir),而不是现有方法中采用的常规全局鉴别器。与全局鉴别器不同,马尔可夫鉴别器试图将输入图像的每个小补丁分类为真实或虚假,这加强了鉴别器对图像补丁局部结构的关注。因此,使用马尔可夫鉴别器进行的对抗性学习将迫使更多的高频纹理信息保留在融合结果中。

全尺寸连接生成器和马尔可夫鉴别器的组合使融合图像能够同时保留丰富的背景纹理和高对比度目标。但是,要确保背景纹理和高对比度区域的和谐共存具有挑战性。在许多当前方法的结果中,高对比度区域的边缘扩散会导致背景纹理污染。为了解决这一挑战,我们提出了一种联合梯度损失函数来巩固显着区域的边缘。具体来说,我们根据最大选择原则,从源图像的梯度图构建一个强联合梯度图。在联合梯度损失的指导下,融合图像的梯度在每个空间像素位置接近联合梯度,从而增强优化过程中纹理边缘的保留。结果,高对比度区域的边缘受到限制,而不会由于扩散而污染背景纹理。

Network Architecture

1) Generator Architecture: 我们基于编码器-解码器框架设计了一个新的生成器来融合红外和可见图像,其架构如图4所示。生成器包含两个主要块: 编码器块 (ENB) 和解码器块 (DEB)。ENB和DEB之间利用了全面的跳过连接,以加强显着特征的提取和保存。
【Markovian:GAN:IVIF】_第4张图片
在图4中,“ENB” 表示包含两个卷积层的编码器块。“DEB” 表示包含一个卷积层的解码器块。向下的红色箭头表示最大池化运算符,编码器块和解码器块之间的所有虚线表示full-scale跳过连接。跳过连接的具体操作包括三种,分别为大尺度 (向下虚线),相同尺度 (水平虚线) 和小尺度 (向上虚线)。图5展示了如何用全尺度跳过连接构造 “DEB1” 的说明。具体来说,对于较大尺度的特征图,我们使用一个最大池化层和一个卷积层; 对于相同尺度的特征图,我们直接使用一个卷积层; 对于较小的特征图,我们使用一个双线性上采样层和一个卷积层。在整个过程中,将红外图像Iir和可见光图像Ivi串联在通道维度上作为输入,并将其馈入编码器网络以提取多尺度深度特征。然后,满量程跳过连接将特征映射处理到相同的通道 (在我们的GAN-FM中有32个),并将它们连接到下一个解码器。最后,融合图像If由解码器网络产生。

2) Discriminator Architecture:
【Markovian:GAN:IVIF】_第5张图片

在提出的方法中,Dvi和Dir是具有相同体系结构的两个独立的马尔可夫判别器。鉴别器的结构如图6所示,该鉴别器由五个卷积层组成。前四层采用ReLU激活功能,而最后一层采用Tanh激活功能。值得注意的是,在最后四个卷积层中使用了批归一化。鉴别器的输出是一个矩阵,每个神经元可以在输入图像中表示一个局部补丁,说的是感受野。在我们的模型中,感受野的大小为63 × 63像素。通过平均所有补丁概率来获得最终的确定概率。这种形式可以迫使生成器在对抗性学习过程中更加注重纹理细节的保存。

Loss Function

我们的模型由一个生成器,一个红外鉴别器和一个可见鉴别器组成。因此,损失函数也可以分为三个部分,即发生器LG的损失函数,红外鉴别器LDir的损失函数和可见鉴别器LDvi的损失函数。
1)Loss Function of Generator: 已知GAN对训练不稳定。我们提出了一个内容丢失Lcon来额外约束生成器。因此,生成器的损失函数由对抗损失Ladv和内容损失Lcon组成,其定义为:在这里插入图片描述
采用对抗性损失来指导生成器产生现实的融合结果,以愚弄两个判别器,可以定义为:【Markovian:GAN:IVIF】_第6张图片
因此,最终输出代表特定概率。换句话说,生成器期望鉴别器考虑所产生的融合图像既是可见图像又是红外图像。内容丢失Lcon用于约束融合图像以保留源图像中有意义的信息,这也有助于对抗性学习的稳定性。在我们的模型中,我们将有意义的信息分为两个项,即表征热辐射的强度信息和表示纹理细节的梯度信息。因此,内容损失Lcon包含两个部分:
【Markovian:GAN:IVIF】_第7张图片
强度损失限制了融合图像保持与源图像相似的强度分布,从而保留了显著的对比度信息。强度损失定义为:
【Markovian:GAN:IVIF】_第8张图片
梯度损失衡量纹理保存的程度。为了保留更强和更精细的纹理,我们主张使用联合梯度损失代替传统的梯度损失。联合梯度损失定义为:
【Markovian:GAN:IVIF】_第9张图片
如图7所示,这种更强的关节梯度不仅可以加强纹理细节的保留,还可以有效防止高对比度区域的边缘扩散。
【Markovian:GAN:IVIF】_第10张图片

2) Loss Function of Discriminators: 在建议的GANFM中,我们使用两个独立的鉴别器 (即Dir,Dvi) 来约束生成器,以分别捕获更多的对比度和纹理信息。对应的损失函数为LDir和LDvi,定义为:
请添加图片描述
它们中的每一个都是一个交叉熵损失函数。红外鉴别器专用于准确区分红外图像和融合图像,而可见光鉴别器则旨在准确区分可见图像和融合图像。然后,这两个鉴别器与发生器处于敌对关系,这迫使发生器提高伪造能力,捕获红外和可见模态的关键特征。

你可能感兴趣的:(图像融合,生成对抗网络,人工智能)