【引用格式】:
Xu H , Ma J , Jiang J , et al. U2Fusion: A Unified Unsupervised Image Fusion Network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
【论文网址】:https://ieeexplore.ieee.org/document/9151265/citations
【开源代码】:https://github.com/hanna-xu/U2Fusion
【开源数据集】VIS-IR数据集RoadScene:https://github.com/hanna-xu/RoadScene
传统的融合框架、融合规则的有限选择和手工设计的复杂性限制了性能的提高。在端到端模型中,融合问题通过依赖监督学习的ground truth或专门设计的无监督学习度量来解决。然而,不存在多个任务的通用基本事实或无参考指标。然而,不存在多个任务的通用基本事实或无参考指标。这些问题是构建统一模型和有监督或无监督学习应用的主要障碍。
不同的融合任务往往有着相同的目标,即通过整合来自多个源图像的重要和互补信息来合成一幅图像。然而,在不同的任务中,由于源图像的类型不同,需要整合的重要信息也有很大差异,因此大多数方法的有效性仅限于特定任务。
通过在统一的模型中解决不同的融合问题,这些任务可以相互促进。例如,已被训练用于多曝光图像融合的统一模型,它能够改善多模态或多聚焦图像中曝光不足/曝光过度区域的融合性能。因此,通过整合多个任务的优势,统一模型可以获得更好的结果,每个单一的融合任务比多个单独训练的模型具有更强的泛化能力。
更具体地说,我们用统一的模型和统一的参数来解决不同的函数问题。我们的解决方案缓解了以往方法的缺点,例如对不同的问题需要采取单独的解决方案,用于训练的存储和计算问题,以及用于持续学习的灾难性遗忘。
通过约束融合图像与源图像之间的相似性,提出了一种新的无监督图像融合网络,克服了大多数图像融合问题中的普遍障碍,即缺乏普遍的ground truth和无参考度量。
在多模式、多曝光和多聚焦图像融合的六个数据集上测试了所提出的方法。定性和定量结果验证了U2Fusion的有效性和通用性。
提出了一个统一的无监督图像融合网络,称为U2Fusion。
思想: 通过度量图像的信息丰富程度,来表征源图像与融合图像的相似度,信息越丰富,则这张源图像越重要。
关键问题: ①寻找一种统一的信息度量方法来决定源图像的信息保留程度;②如何解决不同类型的源图像的重要信息差异问题?
解决方法: 综合考虑源图像的多因素特性来解决——提取浅层特征(纹理、局部形状等)和深层特征(内容、空间结构等)来估计信息度量。
流程图:
上方:输入的源图像I1,I2,使用已训练的DenseNet生成融合图像If
下方:使用VGG模型对源图像进行特征提取得到5个层次的特征图(max-pooling前);使用特征图对源图像进行信息度量,得到两个数值gI1,gI2;之后得到最终的信息保留水平w1,w2.
使用预训练的VGG16特征提取得到5个层次的特征 ,通过综合各个层次的特征能够更好反应人类视觉感知情况。(浅层特征包含纹理、形状细节信息,深层特征包含内容和空间结构信息)
信息度量
基于特征图的梯度信息进行信息度量。图像梯度是一种基于局部空间结构的度量,具有较小的感受野。
其中:
表示第j个max-pooling前面的特征
k表示特征图的第k个通道
▽表示拉普拉斯算子(二阶微分算子)
信息保留水平
基于信息度量结果计算得到两个自适应权重ω1,ω2,度量两张源图像分别与融合图像的相似性。损失函数采用ω1和ω2来控制特定源图像的信息保存程度。
Softmax将权重映射到0~1之间
预定义常数c用于缩放(gI1和gI2数值较小,差异小),以便更好地分配权重。
① 相似性约束(similarity constraint (SIM)):结构相似、强度分布
A) structural similarity index measure (SSIM):根据亮度、对比度和结构等信息的相似性来模拟失真
其中,Sx,y表示两个图像之间的SSIM值
B) mean square error(MSE):由于SSIM对强度分布差异的约束较弱,因此引入均方误差(MSE)来约束强度分布。
通过约束MSE获得的结果会出现相对模糊的外观,而SSIM可以弥补这个问题。因此,这两项能够相互补偿。
②弹性权重合并(Elastic Weight Consolidation (EWC))
**背景:**不同的融合任务通常会导致特征提取、融合的差异,这直接反映在DenseNet参数的不同值上。我们希望用统一的参数训练一个单一的模型,将这些模型集成在一起,从而适用于多个任务。
实现的两类方法: 联合训练、顺序训练
当任务数量增加时,联合训练会出现:存储问题、计算问题
顺序训练的问题:灾难性遗忘问题。(在新任务上优化参数的过程中会导致失去之前学习到的能力)
思想: 先前任务的重要参数赋予更大权重,使得在后续模型优化过程变化较小,而冗余参数赋予较小权重,用于后续任务的优化,在后续训练中变化较大。
其中,θ*为先前任务的参数,θ为当前任务的参数
为了评估重要性,将μi指定为费舍尔信息矩阵的对角项,并通过计算与先前任务中定义如下的数据的梯度平方来近似。
如果存在多个先前任务,Lewc(θ,D)将根据特定任务和相应数据进行调整。然后,对这些梯度的平方进行平均,得到最终μi。图7展示了训练过程和数据流。
多任务训练过程:
细线的数据流表示用于计算μi
每一层的特征图均为44通道
有研究已经证明,如果在靠近输入层和靠近输出层之间建立较短的连接,CNN可以显著地更深入和有效地训练。因此,在前七层中,使用密集连接CNN的密集连接块来改善信息流和性能。这些层中,以前馈的方式从通道维度对特征图进行串联,可以减少渐变消失的问题。同时,可以在减少参数数量的同时进一步加强特征传播。后面的四层逐渐减少特征映射的通道,直到生成单通道融合结果
由于图像的结构细节主要在亮度(Y)通道中,且亮度变化比色度通道更加显著,因此,将亮度通道采用上述方法进行融合。Cb和Cr(色度)通道采用传统方法进行融合。
将YCrCb空间中各通道的融合结果通过逆变换转换为RGB颜色空间
在多曝光/多聚焦图像融合任务中,输入的源图像往往不止2张,这种情况下可以先选取两张图像进行融合,之后将融合结果与第三张图像融合,依次类推。
①multi-modal(VIS-IR and medical image (PET-MRI))、②multi-exposure、③multi-focus
数据集:6个
训练集:
任务1:多模态图像融合:RoadScene1 (VIS-IR)【自制 、开源】 and Harvard2 (PET-MRI)
任务2:多曝光图像融合:SICE
任务3:多聚焦图像融合:Lytro
测试集:
任务1:VIS-IR图像融合:TNO
任务2:多曝光图像融合:EMPA HDR
对比方法:HMSD, GTF, DenseFuse, FusionGAN,DDcGAN
数据集:TNO and RoadScene datasets
定性评估:
定量评估:
评估指标:
- correlation coefficient (CC):测量源图像和结果之间的线性相关度
- structural similarity index measure (SSIM)
- peak signal-to-noise ratio (PSNR):评估融合过程造成的失真
- sum of the correlations of differences(SCD):量化了融合图像的质量。
对比方法: RPCNN, CNN, PA-PCNN, NSC
数据集: Harvard dataset
定性评估: U2Fusion在几乎不损失功能(颜色)信息的前提下,具有更多的结构(纹理)信息。
定量评估: 使用VIS-IR图像融合相同的四个指标进行对比,在CC、SSIM和PSNR上的最佳结果表明,U2Fusion与源图像具有较高的相关性和相似性,并且不会产生失真/噪声。在SCD上取得了次优结果。
对比方法: GFF, DSIFT, GBM, Deepfuse, FLER
数据集: SICE、EMPA HDR dataset
定性评估:
① 在U2Fusion中,GFF、DSIFT和FLER中的局部暗区得到了改善。
② 与GBM和Deepfuse相比,U2Fusion的结果更加丰富,细节更清晰,对比度更高,提供了更好的细节表现。
定量评估:
edge intensity (EI):EI反映了边缘点的梯度幅值
使用SSIM、PSNR、CC、EI进行评估,结果表明U2Fusion的融合图像与源图像的相似性和相关性较高,失真较小,梯度幅度较大。
(部分指标取得最优结果,其他指标接近最优)
对比方法: DSIFT, GBM, CNN, GFDF, SESF-Fuse
数据集: Lytro dataset
定性评估:
① U2Fusion方法缓解了其他方法在聚焦和散焦边界处的模糊问题
② U2Fusion在更大程度上保留了细节信息。
定量评估:
评估指标:
- visual information fidelity (VIF):通过计算源图像和融合结果之间的失真来测量信息保真度。
- mean gradient (MG):MG越大,图像包含的梯度越多,融合性能越好。
使用EI, CC, VIF, MG进行评估,EI的最佳结果和MG的次优结果表明,U2Fusion的结果中有更多的梯度,以获得更清晰的外观。CC上的最佳结果和VIF上的最佳结果表明,U2Fusion与源图像保持了最高的线性相关性,并实现了相当的信息保真度。
① EWC
结果: 在训练任务2时,有无使用EWC效果差不多;在训练任务3时,无EWC的模型任务2的验证集的损失明显增加,说明模型对任务2的性能下降,而有EWC的模型仍然保持稳定状态。
结论: 通过应用EWC,我们可以获得适用于这些任务的单一模型
μi是由每个任务训练后的相似性损失和相应的数据集计算得出。μ越大说明前一个任务的θ越重要,越小说明对应的θ是冗余的。(个人理解:μ的分布一定程度上反映了前后两个任务的模型参数之间的关系。)
结果: 无EWC下,三个任务的分布差异不明显;而有EWC下,较大的μ显著增加,表明网络存在更多对前后两个任务都比较重要的参数,较小的μ显著减少,表明网络的冗余度在降低。
结论: 越来越多的参数在提高融合性能方面发挥着重要作用。
结果: 在未训练任务3时,任务3的融合结果出现比较明显的边界模糊现象,训练任务3之后,任务3的融合结果得到锐化。在任务3训练后,无EWC的任务2融合结果性能下降(出现过暗现象),而有EWC的任务2仍表现良好。
②不同任务之间相互促进的统一模型
背景: 在U2Fusion中,我们使用EWC不断地从新任务中学习。这样,统一模型就能够使用多种类型的源图像。因此,使用统一的参数,通过U2Fusion从单个任务中学习到的信息可以促进其他任务。
方法: 为每个任务创建了一个单独的模型,将结果与U2Fusion进行对比。
结果: U2Fusion能改善多聚焦和多模态图像融合中的一些亮度过曝区域的效果;能够改善多曝光图像融合任务中的多聚焦区域,得到更加清晰、锐利的边缘。
结论: 通过收集多个任务的强度,U2Fusion不仅对多种类型的源图像,而且对同一类型的源图像中的多种类型的区域具有很强的泛化能力。因此,一个统一的模型可以实现不同融合任务的相互促进。
③关于自适应信息保存度的消融研究
方法: 将ω1和ω2固定为0.5,与U2Fusion结果对比
结果:
④ 训练顺序的影响
方法: 三种训练顺序进行对比
定性评估:
多模态、多曝光图像融合训练顺序的交换对多聚焦图像的融合影响不大。
将多聚焦图像融合作为任务1的融合图像表现得比较模糊。
定量评估:(两个指标:correlation coefficient (CC)和meangradient (MG))
结论: 多模态和多曝光图像融合的训练顺序对融合结果影响不大,而多聚焦的训练顺序对融合结果影响相对显著。最佳性能顺序:多模态→多曝光→多聚焦
⑤*U2Fusion vs. FusionDN(本文方法的初版)
改进1: 信息保存度分配策略 效果:保留了源图像中更多的细节
改进2: 损失函数 效果:融合的强度更接近于源图像
改进3: 训练任务 效果:边缘和纹理改善