图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF

@article{ma2020ganmcc,
title={GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion},
author={Ma, Jiayi and Zhang, Hao and Shao, Zhenfeng and Liang, Pengwei and Xu, Han},
journal={IEEE Transactions on Instrumentation and Measurement},
volume={70},
pages={1–14},
year={2020},
publisher={IEEE}
}


论文级别:SCI A2
影响因子:5.6

[论文下载地址]

[代码下载地址]


文章目录

  • 论文解读
    • 关键词
    • 核心思想
    • 网络结构
    • 损失函数
      • 生成器损失
        • 内容损失
        • 对抗损失
      • 判别器损失
    • 数据集
    • 训练设置
    • 实验
      • 评价指标
      • Baseline
      • 实验结果
  • 传送门
    • 图像融合相关论文阅读笔记
    • 图像融合论文baseline总结(✨✨✨强烈推荐必看博客)
    • 其他论文
    • 其他总结
    • ✨精品文章总结


论文解读

作者提出了多分类约束GAN(GANMcC)用于图像融合,将【图像融合】问题转换为了【多分布同时估计】问题。
使用多分类GAN同时估计可见光和红外域分布,可以优化融合结果。具体来说就是,使用多分类器作为判别器判断输入图像为可见光/红外图像的概率。
将主辅思想运用于梯度和强度信息来构造损失函数。即红外图像中的纹理信息可以作为强度信息的补充,同理可见光图像的强度信息作为纹理信息的补充。

关键词

Deep learning, generative adversarial network(GAN), image fusion, infrared, multiclassification
深度学习,GAN,图像融合,红外,多分类

核心思想

使用多分类作为判别器来确定输入图像为可见光/红外图像的概率。

  • 【生成器】希望融合图像的两种【概率都很高】,即判别器认为融合图像【既是】红外图像【也是】可见光图像
  • 【判别器】希望融合图像的两种【概率都很小】,即判别器认为融合图像【即不是】红外图像【也不是】可见光图像

损失函数根据主辅思想,即:
损失=强度损失+梯度损失。每种子损失又分为主要损失+辅助损失

参考链接
[什么是图像融合?(一看就通,通俗易懂)]

网络结构

作者提出的GANMcC网络结构如下图所示。
对比度信息用强度表示,细节信息用梯度表示。
生成器的输入由梯度路径和对比度路径组成。输入图像采用了2:1的concat方法。与PMGI方法相同。
梯度路径=2可见+1红外;对比度路径=2红外+1可见。判别器的输入=红外/可见/融合,输出为可见/红外的概率,是一个1×2的概率向量。
图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第1张图片
图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第2张图片

损失函数

生成器损失

生成器的损失为内容损失和对抗损失构成,γ是正则化参数,负责维持两项之间的平衡。
在这里插入图片描述

内容损失

内容损失引入了主要信息和辅助信息的思想。

  • 红外图像:

    • 主要信息是强度信息
      在这里插入图片描述
    • 辅助信息是梯度信息
      在这里插入图片描述
  • 可见光图像:

    • 主要信息是梯度信息
      在这里插入图片描述

    • 辅助信息是强度信息
      在这里插入图片描述
      综上,内容损失的组成有四部分,分别是红外/可见光的主要/辅助损失,即:
      内容损失=主强度损失+主梯度损失+辅助梯度损失+辅助强度损失
      图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第3张图片
      上式中,在这里插入图片描述
      即:主>辅,而且梯度损失项>强度损失项


【注意】
作者这里可能笔误了,或者我理解的有问题,大家可以看下原文:

图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第4张图片

文中写的是,【梯度】损失一般【小于】【强度】损失。
在公式(10)中, { β 2 , β 3 } \{\beta_2,\beta_3\} {β2β3}应该对应的是主梯度和辅梯度,即公式描述的意思是【梯度】>【强度】。互相矛盾。文末有投票,大家可以参与投票或者评论区讨论。


对抗损失

为了实现信息平衡,将判别器的对抗损失加入到生成器损失函数中:
在这里插入图片描述
d d d是判别器生成的融合图像概率标签(1×2的概率向量)。D(·)[1]表示向量的第一项,即融合后的图像为可见图像的概率。同样,D(·)[2]表示向量的第二项,即融合后的图像为红外图像的概率。
对两项使用相同的标签 d d d,是为了让判别器判断融合图像为可见/红外的概率相同。
此处,因为生成器希望判别器分辨不出融合图像和真实图像,因此d设置为1
【为什么 d d d设置为1?】
因为优化器会让损失函数变小,概率的值为0~1,最理想的情况下,生成器希望判别器认为融合图像既是可见图像也是红外图像,即希望D(·)[n]的值均为1,所以d为1时,损失函数为0,达到最小

判别器损失

判别器是多分类器,损失函数数由三部分组成:
在这里插入图片描述
P v i s = D ( x ) [ 1 ] P_{vis}=D(x)[1] Pvis=D(x)[1] P i r = D ( x ) [ 2 ] P_{ir}=D(x)[2] Pir=D(x)[2]
当判别器输入为可见光图像时,希望 P v i s P_{vis} Pvis接近1, P i r P_{ir} Pir接近0。
图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第5张图片
a 1 a_1 a1 a 2 a_2 a2是概率标签, a 1 = 1 a_1=1 a1=1 a 2 = 0 a_2=0 a2=0。设置原因可以参考上面的分析得出。
同理,红外图像损失函数如下式:
在这里插入图片描述
此处 b 1 = 0 b_1=0 b1=0 b 2 = 1 b_2=1 b2=1

最后,当输入图像为融合图像的实时候,损失函数为:
图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第6张图片
c=0,因为希望鉴别器可以判定融合图像既不是可见光图像也不是红外光图像。

数据集

  • TNO
  • RoadScene

图像融合数据集链接
[图像融合常用数据集整理]

训练设置

图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第7张图片

实验

评价指标

  • SSIM
  • CC
  • SCD
  • EN
  • SD
  • MI

参考资料
[图像融合定量指标分析]

Baseline

  • LPP, LP,CVT ,DTCWT,GTF,CNN,FusionGAN

参考资料
✨✨✨强烈推荐必看博客 [图像融合论文baseline及其网络模型]

实验结果


图像融合论文阅读:GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF_第8张图片
在这里插入图片描述

更多实验结果及分析可以查看原文:
[论文下载地址]
[代码下载地址]


传送门

图像融合相关论文阅读笔记

[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
[IFCNN: A general image fusion framework based on convolutional neural network]
[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[Visible and Infrared Image Fusion Using Deep Learning]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]

图像融合论文baseline总结(✨✨✨强烈推荐必看博客)

[图像融合论文baseline及其网络模型]

其他论文

[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

其他总结

[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]

如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

小彩蛋:
原文
β1 = 1, β2 = 5, β3 = 4, and β4 = 0.3
所以应该是【梯度大于强度】,公式没错,原文内容错了。

你可能感兴趣的:(图像融合,论文阅读,图像处理,论文笔记,深度学习,人工智能)