@article{ma2020ganmcc,
title={GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion},
author={Ma, Jiayi and Zhang, Hao and Shao, Zhenfeng and Liang, Pengwei and Xu, Han},
journal={IEEE Transactions on Instrumentation and Measurement},
volume={70},
pages={1–14},
year={2020},
publisher={IEEE}
}
论文级别:SCI A2
影响因子:5.6
[论文下载地址]
[代码下载地址]
作者提出了多分类约束GAN(GANMcC)用于图像融合,将【图像融合】问题转换为了【多分布同时估计】问题。
使用多分类GAN同时估计可见光和红外域分布,可以优化融合结果。具体来说就是,使用多分类器作为判别器判断输入图像为可见光/红外图像的概率。
将主辅思想运用于梯度和强度信息来构造损失函数。即红外图像中的纹理信息可以作为强度信息的补充,同理可见光图像的强度信息作为纹理信息的补充。
Deep learning, generative adversarial network(GAN), image fusion, infrared, multiclassification
深度学习,GAN,图像融合,红外,多分类
使用多分类作为判别器来确定输入图像为可见光/红外图像的概率。
损失函数根据主辅思想,即:
损失=强度损失+梯度损失。每种子损失又分为主要损失+辅助损失
参考链接
[什么是图像融合?(一看就通,通俗易懂)]
作者提出的GANMcC网络结构如下图所示。
对比度信息用强度表示,细节信息用梯度表示。
生成器的输入由梯度路径和对比度路径组成。输入图像采用了2:1的concat方法。与PMGI方法相同。
梯度路径=2可见+1红外;对比度路径=2红外+1可见。判别器的输入=红外/可见/融合,输出为可见/红外的概率,是一个1×2的概率向量。
生成器的损失为内容损失和对抗损失构成,γ是正则化参数,负责维持两项之间的平衡。
内容损失引入了主要信息和辅助信息的思想。
红外图像:
可见光图像:
【注意】
作者这里可能笔误了,或者我理解的有问题,大家可以看下原文:
文中写的是,【梯度】损失一般【小于】【强度】损失。
在公式(10)中, { β 2 , β 3 } \{\beta_2,\beta_3\} {β2,β3}应该对应的是主梯度和辅梯度,即公式描述的意思是【梯度】>【强度】。互相矛盾。文末有投票,大家可以参与投票或者评论区讨论。
为了实现信息平衡,将判别器的对抗损失加入到生成器损失函数中:
d d d是判别器生成的融合图像概率标签(1×2的概率向量)。D(·)[1]表示向量的第一项,即融合后的图像为可见图像的概率。同样,D(·)[2]表示向量的第二项,即融合后的图像为红外图像的概率。
对两项使用相同的标签 d d d,是为了让判别器判断融合图像为可见/红外的概率相同。
此处,因为生成器希望判别器分辨不出融合图像和真实图像,因此d设置为1
【为什么 d d d设置为1?】
因为优化器会让损失函数变小,概率的值为0~1,最理想的情况下,生成器希望判别器认为融合图像既是可见图像也是红外图像,即希望D(·)[n]的值均为1,所以d为1时,损失函数为0,达到最小
判别器是多分类器,损失函数数由三部分组成:
令 P v i s = D ( x ) [ 1 ] P_{vis}=D(x)[1] Pvis=D(x)[1]和 P i r = D ( x ) [ 2 ] P_{ir}=D(x)[2] Pir=D(x)[2]。
当判别器输入为可见光图像时,希望 P v i s P_{vis} Pvis接近1, P i r P_{ir} Pir接近0。
a 1 a_1 a1和 a 2 a_2 a2是概率标签, a 1 = 1 a_1=1 a1=1、 a 2 = 0 a_2=0 a2=0。设置原因可以参考上面的分析得出。
同理,红外图像损失函数如下式:
此处 b 1 = 0 b_1=0 b1=0、 b 2 = 1 b_2=1 b2=1。
最后,当输入图像为融合图像的实时候,损失函数为:
c=0,因为希望鉴别器可以判定融合图像既不是可见光图像也不是红外光图像。
图像融合数据集链接
[图像融合常用数据集整理]
参考资料
[图像融合定量指标分析]
参考资料
✨✨✨强烈推荐必看博客 [图像融合论文baseline及其网络模型]
更多实验结果及分析可以查看原文:
[论文下载地址]
[代码下载地址]
[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
[IFCNN: A general image fusion framework based on convolutional neural network]
[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[Visible and Infrared Image Fusion Using Deep Learning]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
[图像融合论文baseline及其网络模型]
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~
小彩蛋:
原文
β1 = 1, β2 = 5, β3 = 4, and β4 = 0.3
所以应该是【梯度大于强度】,公式没错,原文内容错了。