PIAFusion

PIAFusion

    • 1. 论文基本信息
    • 2. 摘要
    • 3. 背景
        • 现有方法的不足
        • 提出新方法
    • 4. 方法具体实现
      • (一)网络
        • 1.光照感知
        • 2.差异感知融合
        • 3.渐进式(中途)融合
        • 4.特征提取
        • 5.图像融合和重构
      • (二)损失函数
    • 5. 实验
      • (一)数据集的构建、实验配置和实现细节
      • (二)一些比较实验和泛化实验来证明我们算法的优越性
      • (三)分析不同方法的运行效率。
      • (四)此外,我们不仅展示了我们的自适应特征选择方法的能力,还展示了我们的方法在高级视觉任务中的潜力。
        • (1)自适应特征选择
        • (2)语义分割
      • (五)进行了一些消融研究以验证我们特定设计的有效性,包括光照感知损失和跨模态差异感知融合模块。
    • 6. 收获

1. 论文基本信息

标题:PIAFusion: A progressive infrared and visible image fusion network based on illumination aware
发表时间:2022
期刊:Information Fusion
作者:Linfeng Tang1, Jiteng Yuan1, Hao Zhang, Xingyu Jiang, Jiayi Ma

2. 摘要

红外和可见图像融合旨在合成单个融合图像,即使在极端光照条件下也包含显着目标和丰富的纹理细节。然而,现有的图像融合算法未能在建模过程中考虑光照因素。
在本文中,我们提出了一种基于光照感知的渐进式图像融合网络,称为 PIAFusion,它自适应地保持显着目标的强度分布并保留背景中的纹理信息。具体来说,我们设计了一个光照感知子网络来估计光照分布并计算光照概率。此外,我们利用光照概率构建光照感知损失来指导融合网络的训练。跨模态差分感知融合模块和中途融合策略在光照感知损失的约束下完全融合了共同和互补的信息。
此外,还发布了新的红外和可见光图像融合基准数据集,即多光谱道路场景(https://github.com/Linfeng-Tang/MSRS),以支持网络训练和综合评估。大量实验证明了我们的方法在目标维护和纹理保存方面优于最先进的替代方法。特别是,我们的渐进式融合框架可以根据光照条件全天候整合来自源图像的有意义的信息。此外,语义分割的应用展示了我们的 PIAFusion 在高级视觉任务中的潜力。我们的代码将在 https://github.com/Linfeng-Tang/PIAFusion 上提供。

3. 背景

现有方法的不足

尽管数据驱动的图像融合方法可以合成相对令人满意的融合结果,但仍有一些障碍值得强调。
(1)首先,红外和可见光图像融合社区目前缺乏用于训练鲁棒融合网络的大型基准数据集。主流数据集,即TNO 数据集 [29]和 RoadScene 数据集 [30]包括一些具有简单场景的图像对,特别是 TNO 数据集。在这些数据集上训练的融合网络容易过度拟合,无法应对更复杂的场景。因此,开发具有大量图像对的新基准数据集用于红外和可见图像融合是很有希望的。
(2)此外,还存在一个关键问题,即,照明不平衡从未被研究过。照明不平衡是指白天和夜间场景之间照明条件的差异 [31]。直观地说,我们提供了一个示例来呈现图 2中的光照不平衡,可以观察到可见图像比红外图像具有更清晰的纹理细节,但红外图像在白天可以突出明显的行人。相比之下,红外图像比夜间的可见图像提供了更多的显着目标和更丰富的纹理。不幸的是,现有的方法 [7]、[17]、[26]一般假设纹理只存在于可见图像中,这在白天场景中是合理的。然而,这样的假设可能会导致融合图像在夜间丢失纹理细节。此外,基于AE的方法 [6]利用不适当的融合规则来融合深层特征,这可能会削弱纹理细节和显着目标。
(3)最后,现有技术更多地关注如何融合图像/特征,而忽略了何时融合图像/特征。更具体地说,研究人员致力于设计更精细的融合规则和损失函数以提高融合性能。但是很少研究合并图像/特征的阶段。目前,融合分为两个阶段,即输入融合和中途融合。输入融合是指将多模态输入级联在一起作为融合网络的输入 [7]、[26] ,这可能导致网络无法融合源图像的语义信息。中途融合意味着使用特定的融合规则来合并由特征提取器提取的深层特征 [6]、[20],[22],[24]。在这种情况下,选择的融合规则至关重要,因为不合适的规则无法充分整合互补信息。

提出新方法

为了解决上述问题,我们提出了一种基于光照感知的渐进式红外和可见光图像融合框架,称为 PIAFusion,并发布了一个用于红外和可见光图像融合的大型基准数据集。
首先,我们从现有的 MFNet 数据集 [5]中收集大量红外和可见图像对,该数据集是为多模态图像语义分割而拍摄的。MFNet 数据集包含大量低对比度和低信噪比的红外图像以及一些未对齐的图像对。因此,我们锐化和增强红外图像并去除未对齐的图像对。
随后,我们设计了一个光照感知子网络来评估光照条件. 更具体地说,预训练的光照感知子网络计算当前场景是白天还是黑夜的概率。然后,利用这些概率来构建光照感知损失,以指导融合网络的训练。
最后,采用包含跨模态差分感知融合(CMAF)模块的渐进特征提取器来充分提取和合并多模态图像中的互补信息。然后,通过中途融合的方式融合互补和共同的特征,图像重建器将融合的特征转换为融合的图像域。
在光照感知损失的指导下,我们的融合框架可以根据光照条件自适应地整合重要信息,例如独特的目标和纹理细节。而且,CMDAF 模块和中途融合策略允许我们的网络在各个阶段合并共同和互补的信息。因此,无论光照条件如何,我们的融合图像都可以完全保持纹理,同时强调突出的目标,这可以从图 2。总而言之,我们的主要贡献有四方面:

  • 我们提出了一种新颖的光照引导红外和可见光图像融合框架,可以通过感知光照情况全天候融合源图像的有意义信息。

  • 我们将跨模态差异感知融合模块与中途融合策略相结合,在各个阶段整合互补和共同的信息。 我们在 MFNet

  • 数据集的基础上构建了一个新的基准数据集,用于红外和可见光图像融合的训练和评估,称为多光谱道路场景 (MSRS)。可在https://github.com/Linfeng-Tang/MSRS获得。

  • 大量实验证明了我们的算法优于最先进的竞争对手。与其他方法相比,我们的方法可以根据光照条件自适应地融合互补信息和公共信息。

4. 方法具体实现

(一)网络

1.光照感知

光照感知子网络:
旨在估计场景的光照分布,其输入是可见图像,输出是光照概率。照明感知子网络的架构如图 4 所示。它由四个卷积层、一个全局平均池和两个全连接层组成。步幅设置为 2 的 4 × 4 卷积层压缩空间信息并提取照明信息。所有卷积层都使用 Leaky Relu 作为激活函数并将填充设置为相同。然后,利用全局平均池化操作来整合光照信息。最后,两个全连接层根据光照信息计算光照概率。
PIAFusion_第1张图片
PIAFusion_第2张图片

给定一个可见图像Ivi,照明感知过程定义为:
在这里插入图片描述
NIA表示光照感知子网络,Pd和Pn表示图像分别属于白天和黑夜的概率。值得一提的是Pd和Pn是非负标量。由于白天大部分信息集中在可见图像中,而红外图像在夜间包含更多有意义的信息,因此光照概率从侧面反映了源图像信息的丰富程度。因此,我们利用光照概率来计算光照感知权重,该权重通过光照分配机制表示源图像的贡献。为了简化计算,我们的光照分配机制采用了一个简单的归一化函数,定义如下:
在这里插入图片描述
Wir和Wvi分别表示红外图像和可见图像对融合过程的贡献。

2.差异感知融合

PIAFusion_第3张图片

(1)应用一个特征编码器 EF从红外和可见图像中提取深层特征,可以表示为:
在这里插入图片描述
我们定义Firi和Fvii作为提取的特征i分别来自红外和可见图像的卷积层。

(2)跨模态差异感知融合(CMAF)模块来补偿差异信息:
在这里插入图片描述
在这里插入图片描述
其中,共同部分代表共同特征,互补部分反映不同模态的互补特征。方程(4)解释差分分解的原理,类似于差分放大电路。CMDAF 模块的核心思想是将互补信息与信道加权充分整合。
⊕指逐元素求和,⊙表示通道乘法,δ(⋅)和GAP(⋅)分别表示sigmoid 函数和 Global Average Pooling。方程。 (5)表示全局平均池将互补特征压缩成向量。然后,向量被归一化为[0,1]通过 sigmoid 函数生成通道权重。最后,将互补特征乘以通道权重,并将结果作为模态补充信息添加到原始特征中。因此,我们的特征编码器可以提取和预集成不同模态的互补特征与 CMDAF 模块。

3.渐进式(中途)融合

红外图像和可见光图像的共同特征和互补特征通过中途融合的方式完全融合,即拼接。中途融合策略表示如下:
在这里插入图片描述其中,C(⋅)指的是通道维度的串联。
PIAFusion_第4张图片

4.特征提取

PIAFusion_第5张图片
特征提取器中有五个卷积层,旨在充分提取互补和共同特征。首先,设计了 1×1 的卷积层来减少红外和可见图像之间的模态差异。因此,我们分别为红外和可见图像训练第一层。然后,使用四个具有共享权重的卷积层来提取红外和可见图像的深层特征。值得注意的是,第 2、第 3 和第 4 层的输出后面是一个 CMDAF 模块,用于交换模态互补特征。

5.图像融合和重构

图像重建器包含五个卷积层,负责完全整合共同和互补信息并生成融合图像。图像重建器的详细配置如表 1所示。除最后一层外,所有层的内核大小均为 3 × 3,其内核大小为 1 × 1。此外,图像重建器在图像重建过程中逐渐减少特征图的通道数。图像重建器中的所有卷积层都采用 Leaky Relu 作为激活函数,除了最后一层,其激活函数为 Tanh。
PIAFusion_第6张图片

最终,融合的图像 If从融合特征中恢复 Ff通过图像重建器 RI,其表示为等式。 (7) :
在这里插入图片描述

(二)损失函数

渐进融合网络的全目标函数是光照损失、辅助强度损失和纹理损失的加权组合,表示如下:
在这里插入图片描述
(1)为了促进我们的渐进式融合框架根据光照条件自适应地集成有意义的信息,我们创新地提出了光照感知损失。光照感知损失 Lillum准确定义如下:
在这里插入图片描述
Lintir和Lintvi分别表示红外和可见图像的强度损失。Wir和Wvi是照明感知权重,在方程式中定义。 (2)。
强度损失在像素级别测量融合图像和源图像之间的差异。因此,我们将红外和可见图像的强度损失定义为:
在这里插入图片描述
在哪里H和W分别是输入图像的高度和宽度,‖⋅‖1代表l1-规范。实际上,融合图像的强度分布应该根据光照情况与不同的源图像保持一致。因此,我们使用光照感知权重,即Wir和Wvi调整融合图像的强度约束。
(2)光照损失驱动渐进融合网络根据光照条件动态保存源图像的强度信息,但它不能保持融合图像的最佳强度分布。为此,我们进一步引入了辅助强度损失,表示为:
在这里插入图片描述
表示按元素的最大选择。
(3)此外,我们期望融合图像保持最佳强度分布并同时保留丰富的纹理细节。基于大量实验,我们发现融合图像的最佳纹理可以表示为红外和可见图像纹理的最大聚合。因此,引入了一个纹理损失来强制融合后的图像包含更多的纹理信息,定义如下:
在这里插入图片描述

5. 实验

(一)数据集的构建、实验配置和实现细节

(1)基于 MFNet 数据集 [5]构建了一个新的用于红外和可见光图像融合的多光谱数据集。首先通过去除 125 个未对齐的图像对来收集 715 个白天图像对和 729 个夜间图像对。此外,利用基于暗通道先验 [50]的图像增强算法来优化红外图像的对比度和信噪比。因此,新发布的多光谱道路场景 (MSRS) 数据集包含 1,444 对对齐的高质量红外和可见图像。
(2)对 MSRS、RoadScene [30]、TNO [29]数据集进行了广泛的定性和定量实验。我们将我们的算法与九种最先进的方法进行比较,包括两种传统方法,即GTF [17]和 MDLatLRR [13],三种基于 AE 的方法,即DenseFuse [6],DRF [51]和CSF [11],一种基于GAN的方法,即FusionGAN [7],三种基于CNN的方法,即IFCNN [22] PMGI [40]和U2Fusion [30]。所有这九种方法的实现都是公开的,我们按照原始论文中的报告设置参数。
选择了四个评估指标来量化评估,包括互信息(MI) [52] 、标准差(SD)、视觉信息保真度 (VIF) [53]和Qabf.此外,较大的 MI、SD、VIF 和Qabf表示更好的融合性能。
(3)在 MSRS 数据集上训练我们的渐进融合模型和光照感知模型。我们选择白天场景的图像和夜景图像来训练照明感知子网络。裁剪和分解数据增强用于生成足够的训练数据。具体来说,我们将这些图像裁剪成 64 × 64 的块,步幅设置为. 因此,我们总共收集了 29,960 个白天补丁和 26,320 个夜间补丁。此外,我们利用白天图像对,即26,320 个补丁和夜间图像对,即26,320 个补丁来学习渐进式融合模型的参数。所有图像块都归一化为在被输入网络之前。我们使用 one-hot 标签作为光照感知子网络的参考,并将白天场景和夜间场景的标签设置为 2D 向量和, 分别。
依次训练光照感知子网络和渐进融合网络。更具体地说,我们首先训练光照感知子网络。之后,在训练渐进式融合网络时,利用预训练的光照感知网络计算光照概率并构建光照感知损失。

所提出的方法在TensorFlow平台上实现 [54] 。所有实验均在 NVIDIA TITAN V GPU和 2.00 GHz Intel ® Xeon ® Gold 5117 CPU 上进行。值得强调的是,源图像在测试阶段直接输入渐进融合网络。
我们使用特定的融合策略 [27]来保留融合图像中的颜色信息,因为 MSRS 和 RoadScene 数据集包含彩色可见图像。更具体地说,我们首先将可见图像转换为 YCbCr 颜色空间。然后,采用不同的融合方法将可见图像和红外图像的Y通道进行融合。最后,融合后的图像可以通过结合可见图像的 Cb 和 Cr 通道转换为 RGB 颜色空间。

(二)一些比较实验和泛化实验来证明我们算法的优越性

(1)对比实验定性定量
我们将提出的 PIAFusion 在 MSRS 数据集上的其他九种方法进行了比较。
在白天场景中,红外图像的热辐射信息可以作为可见图像的补充信息。因此,一个优秀的融合算法应该保留可见图像的纹理细节,同时突出显着目标而不引入光谱污染。……(具体每种算法效果的分析)
在夜间场景中,可见图像仅包含有限的细节信息。幸运的是,红外图像包含显着目标和广泛的纹理细节,可以补充可见图像的纹理。然而,根据照明场景自适应地整合来自红外和可见图像的纹理信息是一个挑战。……(具体每种算法效果的分析)
(2)泛化实验
众所周知,泛化性能是评估数据驱动方法的重要因素。因此,我们提供了在 RoadScene 和 TNO 数据集上进行的泛化实验,以验证我们的 PIAFusion 的泛化性。值得注意的是,我们的融合模型在 MSRS 数据集上进行了训练,并直接在 RoadScene 和 TNO 数据集上进行了测试。
定性:
(共6张图,白天晚上各3张,每张和其他9种方法进行对比)
RoadScene 数据集上不同算法的定性比较如图 10、图 11、图 12 所示。可以注意到,所有算法都……然而……未能……此外,其他方法,尤其是……都存在……。我们的方法通过 CMDAF 模块和中途融合的方式完全集成了源图像的互补和共同特征。因此,上述问题,即热目标退化、光谱污染和纹理模糊,不会出现在我们的融合结果中。
不同方法在 TNO 数据集上的可视化结果如图 13、图 14、图 15 所示。从图中可以看出图 13 中的方框,……与其他替代方案相比,我们的渐进融合网络有效地保留了可见图像的纹理细节,这可以从图 14、图 15 中的方框。
因此,各种数据集上的广泛可视化结果证明了我们的算法在重要的目标维护和纹理保存方面的优越性。我们将优势归因于以下几个方面。一方面,我们定义了光照感知损失来约束网络根据特定的光照条件整合有意义的信息。另一方面,我们设计了一个跨模态差分感知融合模块,以完全融合红外和可见图像的互补信息。
定量:
(2张图,分别是在两个数据集上的4个指标结果)
总之,定性和定量结果都表明 PIAFusion 具有很好的泛化性能。此外,我们提出的方法有效地保持了目标区域的强度分布并保留了背景区域的纹理细节,这得益于我们提出的光照感知损失和 CMSDAF 模块。

一个点 (x,y) 在曲线上表示有 (100∗x)% 图像对的度量值不超过y.【图的表示方法很特别】

(三)分析不同方法的运行效率。

【推理中的时间吗?还是说算上训练的时间?】
为了以整体的方式评估不同的算法,我们在表 3中提供了不同方法的平均运行时间. 可以观察到,传统方法在合成融合图像上花费了更多时间。特别是 MDLatLRR 通过多尺度分解获得低秩表示,非常耗时。相比之下,数据驱动的方法在运行效率方面表现出明显的优势,受益于 GPU 加速。特别是,IFCNN 是所有数据集上最快的算法。我们的渐进式融合网络通过跨模态差异感知融合模块实现互补特征的全融合,并以串联的方式整合共同和互补信息。因此,我们的 PIAFusion 相对耗时。幸运的是,我们的方法仍然具有与其他方法相当的运行效率。
PIAFusion_第7张图片

(四)此外,我们不仅展示了我们的自适应特征选择方法的能力,还展示了我们的方法在高级视觉任务中的潜力。

(1)自适应特征选择

(2张图白天夜晚的展示)

在我们精心设计的损失函数的指导下,所提出的框架可以隐式地实现基于光照场景的特征提取、特征选择和图像重建。为了直观地展示融合网络根据光照变化的隐式特征选择功能,我们分别在白天和夜间场景中提供了特征整合阶段后的部分特征图,如图 18、图 19 所示. 可以观察到,我们的融合模型可以在光照感知损失的指导下,有目的地实现基于光照条件的特征选择。在白天场景中,我们的融合网络能够很好地保留可见特征,同时将来自红外特征的少量信息作为补充集成到融合特征图中。相反,在夜间场景下,融合的特征主要继承了红外特征图的分布,而少量可见特征的细粒度细节也融合到了融合特征中。这些视觉结果证明我们的神经网络可以根据光照变化实现预期的有效特征选择。

(2)语义分割

们分别在源图像和融合图像上训练语义分割算法 [56] 。我们选择 1000 张图像作为训练集,并测试不同模型的分割性能360图片。可视化结果和定量比较如图 20和表 4所示。

(五)进行了一些消融研究以验证我们特定设计的有效性,包括光照感知损失和跨模态差异感知融合模块。

4.9.1 . 光照感知损失分析
更具体地说,我们设置Wir=Wvi=0.5并在消融实验中保留其他配置。
4.9.2 . 跨模态差异感知融合模块分析
在消融实验中,我们从特征提取器中移除了 CMDAF 模块,CMDAF 模块意味着红外和可见图像的特征通过中途融合策略进行融合。

6. 收获

文章写的很成熟,也易于理解,希望自己有朝一日能写出这样水平的文章。

——————————————————————
欢迎讨论和指正,共同进步~~

你可能感兴趣的:(论文阅读,计算机视觉,深度学习,人工智能)