@article{ma2019fusiongan,
title={FusionGAN: A generative adversarial network for infrared and visible image fusion},
author={Ma, Jiayi and Yu, Wei and Liang, Pengwei and Li, Chang and Jiang, Junjun},
journal={Information fusion},
volume={48},
pages={11–26},
year={2019},
publisher={Elsevier}
}
[论文下载地址]
Image fusion, infrared image, visible image, generative adversarial network, deep learning.
图像融合,红外图像,可见光图像,生成对抗网络,深度学习
使用GAN实现红外与可见光图像融合(infrared and visible image fusion,VIF)。
具体来说,生成器的目标是产生具有较大红外强度和附加可见梯度的融合图像,判别器的目标是迫使融合图像拥有更多可见图像中的细节。通过这种方法,可以生成同时具有红外图像中显著目标和可见光图像纹理细节的融合图像。
此外,FusionGAN是一个端到端的模型,因此省略了手工设计活动水平测量和融合规则的步骤。
而且,FusionGAN可以融合不同分辨率的图像,如高分辨率的可见光图像和低分辨率的红外图像。
ps. 这是【第一篇】将GAN用于图像融合任务的论文
参考链接
[一文看懂「生成对抗网络 - GAN」基本原理+10种典型算法+13种应用]
[什么是图像融合?(一看就通,通俗易懂)]
作者提出的FusionGAN网络结构如下图所示。
作者将红外与可见光图像融合问题公式化为一个对抗问题。首先将红外图像 I r I_r Ir和可见光图像 I v I_v Iv在通道维度上拼接在一起,将拼接图像输入生成器 G θ G G_{\theta G} GθG,生成器 G θ G G_{\theta G} GθG的输出为融合图像 I f I_f If。
因为此时还没有引入判别器 D θ D D_{\theta D} DθD,所以融合图像更倾向于保留红外图像 I r I_r Ir中热辐射信息以及可见光图像 I v I_v Iv的梯度信息。
然后,将融合图像 I f I_f If和可见光图像 I v I_v Iv输入到判别器 D θ D D_{\theta D} DθD中,使判别器学习区分融合图像和可见光图像。这个过程不断循环,融合图像 I f I_f If逐渐包含越来越多的可见光图像 I v I_v Iv中的细节信息。
训练过程如上图左所示,测试过程如上图右所示。
作者提出的损失函数主要由两部分组成:生成器 G θ G G_{\theta G} GθG的损失函数和判别器 D θ D D_{\theta D} DθD的损失函数。
L G \mathcal L_G LG代表损失值, V F u s i o n G A N ( G ) V_{FusionGAN}(G) VFusionGAN(G)代表生成器 G θ G G_{\theta G} GθG和判别器 G θ D G_{\theta D} GθD之间的对抗损失。如下式:
I f n I_f^n Ifn代表第n个融合图像,N代表融合图像总数。c是生成器希望判别器对【假数据】(即融合图像)的相信值。
第二项 L c o n t e n t \mathcal L_{content} Lcontent代表内容损失, λ \lambda λ用于平衡 V F u s i o n G A N ( G ) V_{FusionGAN}(G) VFusionGAN(G)和 L c o n t e n t \mathcal L_{content} Lcontent。
因为红外图像热辐射信息由像素强度表征,红外图像纹理细节信息由梯度表征。作者希望融合图像 I f I_f If具有与红外图像 I r I_r Ir相同的强度以及与可见光图像 I v I_v Iv相同的梯度。所以内容损失 L c o n t e n t \mathcal L_{content} Lcontent定义为:
H和W为图像高和宽(像素), ∣ ∣ ⋅ ∣ ∣ f ||·||_f ∣∣⋅∣∣f表示矩阵弗罗贝尼乌斯范数(matrix Frobenius norm),∇是梯度算子,ξ是一个用于权衡两项的正参数。
【用人话说,matrix Frobenius norm就是矩阵所有对应元素的平方和再开方,具体定义可以类比向量的L2范数】
参考资料
[弗罗贝尼乌斯范数(Frobenius norm)]
[Frobenius norm(Frobenius 范数)]
上式括号内第一项是为了使红外图像 I r I_r Ir中热辐射信息保留在融合图像 I f I_f If中
上式括号内第二项是为了使可见光图像 I v I_v Iv中梯度信息保留在融合图像 I f I_f If中
大家可能会有疑问,只使用生成器 G θ G G_{\theta G} GθG就可以得到融合图像 I f I_f If了,为什么还需要判别器 G θ D G_{\theta D} GθD呢?
作者给出的解释是,的确可以直接得到保留热辐射信息和梯度信息的融合图像,但是这并不够,因为可见光图像中的纹理细节不能完全被梯度表示(在后续实验中作者进行了验证)。
a和b分别代表融合图像 I f I_f If和红外图像 I r I_r Ir的标签, D θ D ( I v ) D_{\theta D}(I_v) DθD(Iv)和 D θ D ( I f ) D_{\theta D}(I_f) DθD(If)分别代表对可见光图像和融合图像的分类结果。
作者使用了最小二乘损失函数,服从皮尔逊 χ 2 χ^2 χ2散度最小化。这种方法可以让训练过程更稳定,同时使判别器 D θ D D_{\theta D} DθD收敛速度更快。
图像融合数据集
[图像融合常用数据集整理]
参考资料
[图像融合定量指标分析]
参考资料
[图像融合论文baseline及其网络模型]
下图证明了对抗训练的重要性,每列前两行分别为红外图像和可见光图像,第三行是部对抗训练,直接使用生成器产生的融合结果,第四行为加入对抗训练的融合结果。可以看出仅由梯度作为损失是不够的,可见光图像可以对融合结果的细节纹理产生有效约束。
实验设计:对红外图像进行下采样,作为低分辨率红外图像,可见光图像保持不变。因为分辨率已经不同,因此不能直接concat,所以将低分辨率红外图像插值,从而生成同样分辨率的红外图像,再按照之前操作即可。即,
因为融合图像和原始红外图像的分辨率不一样,公式5损失函数重定义为:
φ是下采样操作,即将融合图像下采样至与低分辨率红外图像相同的分辨率。
为什么不对红外图像上采样呢?因为上采样不可避免的会引入噪声。
更多实验结果及分析可以查看原文:
[论文下载地址]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[Visible and Infrared Image Fusion Using Deep Learning]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
[图像融合论文baseline及其网络模型]
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位同学早发paper,顺利毕业~