《Infrared and Visible Image Fusion using a Deep Learning Framework》阅读笔记


一、概述
这篇文章发表于2018年,主要是研究视觉图像与红外图像的融合,作者之后还发表了DenseFuse。
这篇文章的主要思路是将待融合的红外图像与视觉图像分解为基础部分与高频部分,之后分别对这两部分分别采取不同的策略进行融合得到融合基础部分与融合高频部分,最后利用这两部分重建融合图像。
这种将图像分解为两种不同尺度部分的方法我认为主要是为了解决待融合图像大尺度信息相差较大的图像融合任务,例如:红外图像与视觉图像、强关照图像与弱光照图像等。

二、方法思路
1、图像分解
首先要解决的任务是将图像分解为基础部分与高频部分,可以这样理解:基础部分蕴含了图像所要表达的基本语义信息,而细节部分蕴含了图像所要表达的细节信息。这两部分加起来就是原图的所有信息,如下表达式:

在这里插入图片描述

其中Idk为第k张待融合图像的细节部分,Ibk为第k张代融合图像的基础部分。因此我们只要获得Ibk或Idk其中一个便能直接得到另外一个。
作者将获取图像基础部分(Ibk)看作以下优化问题:

在这里插入图片描述

其中Ik为第k张待融合图像(这里k取2),gx与gy分别为x方向与y方向的梯度算子[-1,1]与[-1,1]T。通过求解这个优化问题可以得到图像的基础部分,进而得到图像的细节部分,完成图像的分解任务。

2、图像融合
本文提出的红外图像与视觉图像融合的算法框架如下图所示:

在这里插入图片描述
(1) 图像基本部分融合
红外图像与视觉图像具有不同的基础风格,这步操作主要是融合两张图象的基本风格。作者主要采用直接加权融合的方式进行,操作可以用以下表达式表达:

在这里插入图片描述

其中a1与a2为超参数。为了保留两张待融合图象的共同信息同时减小冗余信息,文中这两个参数分别取0.5与0.5,也就是平均融合。

(2)图像细节部分融合
作者受VGG-network利用多层深度特征的方式的启发,利用VGG-19网络对图像细节部分进行多层特征提取与融合。这篇文章并没有任何对深度学习网络的训练,而是直接利用了预训练的vgg-19网络。融合流程如下图:

在这里插入图片描述

图中的上标i∈{1,2,3,4}分别代表四个relu层的输出,上标m∈{1,2,…M},M=64×2^(i-1),代表对应relu层的通道数。
作者首先将得到的relu_1_1——relu_4_1这四层特征各自在通道维度求1范数,得到四对(8张,2×4)不同尺度下的初始活动性水平图C,为了使得到的活动性水平图对配准错误(文中是这么说的)更加具有鲁棒性,对初始化活动性水平图采取区域均值操作得到最终活动性水平图:

在这里插入图片描述

其中r为自定义的区域大小。可见,增加r会使得到的结果对配准错误的鲁棒性增加但同时也会造成细节的损失,因此作者此处设定r=1。
之后对每一对(2张)最终活动性水平图进行一步softmax操作,得到四对不同尺度的初始权重图,权重图主要用于后续的四个尺度特征融合:

在这里插入图片描述

由于四张初始权重图对应不同的尺度,因此需要进行上采样至相同尺度得到四对相同大小的最终权重图,上采样方式采用左上角元素填充的方式,上采样率与特征深度呈指数关系(分别对应于该层特征下采样的采样率):

在这里插入图片描述

之后作者通过得到的四对最终权重图对待融合图像的细节部分进行加权,得到四张不同尺度下的初始细节部分融合结果:

在这里插入图片描述

之后对于四张不同尺度的初始细节部分融合结果逐像素选最大值,得到最终细节部分融合结果(取最大值的操作是否合理?):

在这里插入图片描述
(3)融合图像重建
最终作者利用前两步得到的基础部分融合结果与最终细节部分融合结果直接相加的方式得到最终的融合输出:

在这里插入图片描述
3、方法效果评估
(1)主观评估
作者对比了另外五种方法,由于文章空间限制,因此只展示了两对红外图像与视觉图像的评估结果,结果如下:

在这里插入图片描述

在这里插入图片描述
(2)客观评估:
作者利用了四种指标:FMIdct和FMIw分别计算离散余弦和小波特征的互信息; Nabf 表示通过融合过程中人为添加到融合图像上的噪声的比率; SSIMa表示两张输入图像与融合图像结构相似性的均值。总共对比了五种其他方法。
四种指标下的平均结果:

在这里插入图片描述

在指标Nabf上的表现结果:

在这里插入图片描述

在这里插入图片描述

4、 总结
作者认为提出的方法有很强的扩展性,可以被应用到多曝光图像融合,多聚焦图像融合,医学图像融合当中。
多聚焦图像融合对于质量良好的待融合图像(拍摄时角度,位置,光照没有太大变化),由于其低频特征相差不大因此这种图像分解的方式对低维特征的处理可能对最终结果影响不大。但对于质量不太好的待融合图像(拍摄时角度,位置,光照变化较大),尤其是位置角度变化的图像,采用这种分解并融合的方式是否能一定程度上减轻这些不利条件对融合结果的影响呢?
 

你可能感兴趣的:(图像处理)