(结构张量表示的无监督深度图像融合)
本文介绍了一种用于图像融合的无监督深度学习框架 – 深度图像融合网络 (DIF-Net)。DIF-Net使用CNN对图像融合的整个过程进行参数化,包括特征提取,特征融合和图像重建。DIF-Net的目的是生成与高维输入图像具有相同对比度的输出图像。为了实现这一点,我们提出了一种使用多通道图像对比的结构张量表示的无监督损失函数。与传统的融合方法 (涉及耗时的优化或迭代过程以获得结果) 不同,我们的损失函数通过具有大规模示例的随机深度学习求解器最小化。因此,所提出的方法可以产生融合图像,这些融合图像可以通过未经参考ground truth标签训练的单个前向网络来保留源图像细节。所提出的方法对各种图像融合问题具有广泛的适用性,包括多光谱,多焦点和多曝光图像融合。
空间域方法直接计算源图像的加权平均值 (无需特征提取),其中权重由图像块或梯度信息确定。转换域方法将源图像中的信息转换为另一个特征域后,将其组合在一起。流行的变换方法包括多尺度分解和稀疏表示。特征融合确定源图像是否对每个像素的融合图像有贡献。除了点融合规则 (例如max和平均规则) 之外,最近的方法 还考虑了边缘对齐权重图的空间一致性。但是,需要进行大量的后处理才能获得适当的权重图。此外,传统的融合规则不允许在源图像上小而一致的细节,因为它们被设计为仅强调强细节。
基于局部亮度变化通常与视觉相关特征相关的事实,所以使用基于梯度的融合算法,以将边缘信息从源图像传输到融合图像。基于梯度的方法的基本过程是比较不同尺寸图像之间的局部几何形状,即M维输入和N维输出 (M > N)。结构张量是描述图像对比度的强大度量,适用于任意维度的图像。具有结构张量的基于梯度的方法通常将图像融合视为变分问题,其目标是找到保留源图像整体对比度的融合图像。已经提出了几种数值方法,例如顺序(Sequential)和变量分裂方法。但是,这些方法需要耗时的迭代过程才能获得融合图像,并且倾向于使融合图像的结构张量与输入的结构张量偏离。
根据训练数据集中ground-truth标签的存在,基于CNN的图像融合方法可以分为两类。第一类通过监督方式学习从源图像到融合图像的非线性映射。这些方法优先需要显式的ground-truth标签来训练网络,但是有时没有诸如多光谱图像融合之类的ground-truth融合图像。第二类为了克服这些限制,引入了无监督方法进行图像融合。使用了几种学习技术来训练没有任何显式标签的网络,例如自动编码器学习和无监督损失函数。特别是,由于无监督损失函数是由度量指标设计的,以测量融合质量,因此网络将确定哪些源图像应贡献融合图像。但是,这些技术通过常规的融合策略 (例如加法和平均) 执行特征融合。此外,由于它们仅适用于融合图像与每个源图像具有相同维度的融合问题,因此它们不适用于RGB/NIR图像融合。
综上,我们提出深度图像融合网络 (DIF-Net),该方法可应用于输入和输出的任意维度。我们首先使用结构张量定义不同维度图像的对比度。我们提出了一种具有结构张量的无监督损失函数,以惩罚源图像和融合图像之间的结构张量。与需要迭代过程的传统基于结构张量的融合方法不同,通过具有大规模训练示例的随机深度学习求解器将损失函数最小化。此外,DIF-Net使用单个前向CNN对图像融合的整个过程进行参数化,包括特征提取,特征融合和重建。因此,DIF-Net框架直接从cnn生成融合图像,保留输入中的细节。
1)我们提出了一种使用结构张量表示的无监督深度图像融合框架。它有效地迫使融合的输出与高维输入图像具有相同的对比度,并且不需要任何明确的ground-truth标签。
2)我们设计了一种轻量级的CNN架构,该架构通过单个前向传递 (无需复杂的解码器结构或迭代过程) 直接产生输出。我们还提供了有关深度特征空间中各种融合策略影响的消融研究。
3)我们的方法对各种融合应用具有广泛的适用性,包括多光谱,多曝光和多焦点图像融合。
空间域方法通过对源图像进行加权平均来执行图像融合。通常,权重是根据不同像素的活动级别确定的,例如SVM,神经网络 和密集尺度不变特征变换 (SIFT)。为了充分利用空间上下文,早期的空间域方法采用了基于块的和基于区域的融合策略。基本原理是使用活动水平测量 (例如图像方差和空间频率) 从源图像中选择图像块或分割区域。然而,这些方法在对象边界上存在块伪影,或者严重依赖分割精度。最近的方法已采用对初始权重图进行后处理,以考虑图像像素之间的空间一致性。Li等人根据亮度和颜色的差异估计初始权重图,然后使用递归滤波对图进行细化 。还提出了优化方法,例如广义随机游走 (GRW)和马尔可夫随机场 (MRF) ,以估计空间平滑和边缘对齐的权重。
随着强大的图像分析工具 (例如多尺度分解和稀疏表示) 的发展,变换域方法已被广泛用于图像融合。最常用的多尺度分解是离散小波变换 (DWT)。但是,由于下采样过程,该方法存在移位方差问题。已经提出了各种多尺度变换来扩展DWT,例如双树复小波,curvelet和非次采样contourlet变换 (NSCT) 。特别是,NSCT通过非二次采样变换具有移位不变性,并增加了系数的方向性。Hu等人提出结合双边和定向滤波器来构造多尺度表示。由于稀疏表示模拟了人类视觉系统的稀疏编码机制,因此已成功应用于各种图像融合问题 。最近,卷积稀疏表示被用于提取用于图像融合的多层特征。
传统的变换域方法通常分别对高频和低频子带使用最大规则和平均。但是,由于缺乏空间一致性,融合规则会产生亮度失真。为了解决这些局限性,Liu等人提出了在低频段上应用基于稀疏表示的融合。Jang等人 提出了一种新颖的加权平均融合规则,其中通过结合全局和局部信息来确定权重图。Li等人考虑了使用引导图像滤波的新型权重构造的空间一致性。然而,现有的选择规则隐含地假设多个图像中的每个像素只有一个主要特征。因此,这些方法不允许整个源图像之间的小但一致的对比度来复合融合图像中更显着的特征。
基于梯度的方法的目的是将结构信息从源图像传输到融合图像。Socolinsky和Wolff 首先使用结构张量 将多光谱图像可视化为灰色图像。Gu等人应用结构张量从多个低动态范围 (LDR) 图像中获得高动态范围 (HDR) 图像。随后应用额外的对比度增强来合并输入图像的对比度。光谱边缘 (SpE) 融合扩展了更通用的融合方法,该方法从多光谱图像中生成自然主义的彩色图像。这些方法依次执行融合梯度估计和再融合。基本上,融合梯度是通过结构张量的奇异值分解 (SVD) 来估计的。融合的图像是通过执行重新整合从派生的梯度场获得的,这用作泊松重建或查找表映射 。但是,与原始方法相比,这些重新整合方法生成的融合图像具有损坏的结构张量。为了克服顺序方法的局限性,引入了几种基于结构张量的融合方法。Finlayson等人提出了不进行重新整合的图像融合,其中该方法不受人工制品重新整合的影响。他们专注于将原始图像投影到雅可比矩阵的外积的特征向量上。投影图像的梯度场等价于中的导出梯度场。Shibata等人提出用源图像的结构张量直接重建融合图像。他们定义了一个具有结构张量的目标函数,该函数通过变量分裂技术进行优化 。与现有的基于结构张量的融合方法不同,我们的方法不需要复杂的优化或迭代过程即可获得融合图像。在无监督框架中,我们将结构张量用作损失函数。因此,所提出的方法通过单个前向网络生成具有相同源图像对比度的融合图像。
最近,CNN已被应用于各种图像融合问题。基于CNN的图像融合可以分为以下两类: 监督方法和无监督方法。头等舱使用由多个图像及其地面真相融合图像组成的训练数据集对cnn进行训练。Liu等人训练了一个分类器来区分聚焦图像和非聚焦图像,并计算了一个融合权重图。他们通过在全焦点图像中添加高斯模糊来模拟离焦图像以训练分类器。但是,它们的性能在很大程度上受到手工制作的后处理的影响,以从分类器中完善初始权重图。Kalantari等人提议通过CNN从多曝光图像中获得色调映射和无重影融合图像。他们收集了一组静态的低动态范围 (LDR) 图像,然后使用简单的三角形加权方案将它们合并到地面真相高动态范围 (HDR) 图像中。但是,这样的训练数据集使方法的性能仅限于合成输入或绑定到生成的标签。与有监督的图像融合方法相反,无监督方法在没有地面真相融合图像的情况下学习图像融合。无监督方法的框架从编码器中提取深层特征,然后将其融合为统一特征。最终的融合图像由学习的解码器重建。DenseFuse以自动编码器的方式训练深度网络,然后将该模型应用于图像融合。Prabhakar等人利用无参考质量度量作为损失函数。Yan等人提出了一种多焦点结构相似性指标度量 (SSIM) 损失函数,该函数能够通过CNNs获得全聚焦图像。但是,这些方法采用常规的融合规则 (加法或平均) 而无需学习该过程。此外,它们仅专注于其融合图像与每个源图像具有相同维度的应用程序。在本文中,我们提出了一种更通用的无监督图像融合方法,该方法学习图像融合的总体过程并处理输入和输出的任意维度。
计算包含在图像梯度中的局部结构已成为提取感知上重要的图像特征的主要方法之一。但是,在处理高维图像时,应重新考虑局部对比度的概念,以适用于各种维数。Di Zenzo提出了结构张量来总结跨多通道图像的梯度信息。让我成为M通道图像。I在一个像素 (x,y) 处的梯度可以用雅可比矩阵表示如下:
结构张量是具有实值的对称矩阵,因此它具有两个实数和非负特征值。结构张量的特征向量指示多通道图像的最大和最小对比度的方向,相应的特征值表示变化率。
一旦为任意尺寸的图像定义了对比度,就很自然地询问如何将高维图像转换为低维融合图像,同时保留整体对比度信息。基于结构张量的图像融合的基本思想是,两者的结构张量应该相同。顺序方法首先计算保留输入结构张量的梯度场,然后在重新融合后生成融合图像。Shilbata等人通过交替最小化 (AM) 算法统一了过程。与传统的需要大量迭代的变分方法不同,我们建议利用结构张量作为损失函数。因此,我们的方法可以通过CNN生成融合图像,从而保留多通道输入的整体对比度。
一种简单的用于图像融合的CNN架构是级联。一系列的卷积层反复出现。融合的图像将通过网络获得,该网络采用了第三维内的堆叠输入。但是,由于源图像的异质属性,我们发现图像域中的这种早期融合效果较差。这与其他多模态特征学习的观察结果一致。取而代之的是,我们设计了一种用于图像融合的体系结构,该体系结构可以在深入学习的特征空间中执行融合。如图1所示,DIF-Net的整体架构由特征提取,特征融合和重建网络模块组成。
为了获得相同类型的特征图,每个通道图像都通过具有相同参数的特征提取网络。该网络设计有卷积层和两个残差块 (ResBlocks),已知这些块有助于通过缓解梯度消失问题来训练深度网络。每个ResBlock由两个卷积层组成,第一层随后是批归一化和整流线性单元 (ReLU) 层。第二卷积层的输出被添加到重块的输入。所有卷积层都在3 × 3空间区域上运行,并生成16个特征图。
特征融合从提取的特征图中获得融合的特征图。传统策略通过选择最大值或加权平均来执行融合。我们建议使用CNN来参数化特征融合,而不是手工制作的融合过程。首先将提取的特征图连接起来,然后是具有16个5 × 5大小的滤波器的卷积层。然后,将融合的特征图通过重建网络以产生最终的融合图像。如图1所示,重建网络还由三个重块的级联和卷积层组成。除最后一个滤镜外,每个卷积层都会生成16个具有3 × 3滤镜的特征图。最后一个卷积层直接生成n沟道融合图像u,没有任何激活函数。
缺少配对的训练数据集会阻碍将CNN应用于图像融合任务。本文建议使用结构张量来计算损失,而无需为融合图像建立地面真相。建议的损失函数定义为以下两个项的总和:
强度保真(fidelity)项鼓励融合图像u看起来类似于假定的图像Ipup 。假定图像与融合图像具有相同的尺寸,并且是从输入图像生成的我们定义LI如下:
其中,||A||F表示矩阵A的Frobenius范数。该方式更喜欢融合图像和输入图像的结构张量相同。因此,DIF-Net输出的图像保留了多个图像的整体对比度,同时包含假定图像的自然强度 (或颜色)。