【读论文】AT-GAN

【读论文】AT-GAN

  • 介绍
  • 网络架构
    • 生成器
      • IAM
      • STM
    • 辨别器
  • 损失函数
    • SEM
    • 损失
      • 内容损失
      • 结构损失
      • 对抗损失
  • 总结
  • 参考

论文:https://www.sciencedirect.com/science/article/pii/S156625352200255X
如有侵权请联系博主

介绍

大概是刚开学的时候就读到一篇文章,看完这个指标,我直接膜拜。
在这里插入图片描述
这次要介绍的文章仍然是我们熟悉的Imformation Fusion中一篇论文,论文中将图像质量评价引入到图像融合领域,并且根据红外图像和可见光图像的不同,分别设置了IAM和STM两个模块。融合效果太强了,接下来我们一起看看吧。

网络架构

【读论文】AT-GAN_第1张图片
整体的网络架构是GAN,左边是生成器,右边是辨别器,可以看到网络架构十分的简单。(最近好像有这个趋势,大家都意识到庞大的网络也许可以产生较好的效果,但是可能无法达到实时性的要求,因此大家都有意识精简网络。)

我们可以发现红外特征提取路径和可见光特征提取路径是十分相似的,不同的是红外特征提取是使用的IAM,而可见光特征提取是使用的STM,之后我们再仔细去聊这两个模块。

接下来我们一点点的去看看吧

生成器

IAM

【读论文】AT-GAN_第2张图片
上图就是IAM的网络架构,可以看出这篇文章中的网络模型无时无刻不再告诉你,我是轻量模型。IAM的架构也是十分的简单,输入的特征直接被输入到四个卷积层中,然后得到四个不同的结果,我们可以按顺序给这几个结果命个名,Q,K,V和F0。看到你是不是突然觉得,这几个字母有点熟。是不是有点像transformer,没错正是在下
【读论文】AT-GAN_第3张图片

okokok 不扯了,这里IAM的计算过程就像Transformer的计算过程,如下
在这里插入图片描述
在这里插入图片描述
这里的Reshape是将经过注意力操作之后的特征还原至与F0大小相同,之后再乘以一个alpha,再与F0相加得到最终的特征。

作者希望通过这种注意力的方式来尽可能的保留重要的红外目标信息。

STM

正如我们所知道的那样,纹理信息是存在于浅层特征中,但是单纯的提取浅层特征会导致纹理特征会出现大量的噪声,因此作者希望通过更深一层的特征信息来约束本层特征信息,从而减少可是图像中的噪声信息。
【读论文】AT-GAN_第4张图片
在这里插入图片描述
这里的作者的操作是先将深层特征和较浅层特征进行拼接,然后进行卷积将拼接的特征的通道数减半,然后再与深层特征相加。

到现在为止,生成器就介绍完毕了。

辨别器

【读论文】AT-GAN_第5张图片
辨别器的结构就十分的友好了,由卷积层和全连接层组成。注意这里辨别器的输出类似我们之前了解过的GANMcc,都是输出的一个多分类的结果。

损失函数

SEM

这里着重说一下这个部分,也是我认为文章中最亮眼的部分。

之前的大多数文章在设置损失时会给红外图像和可见光图像对应的损失分配一个固定的超参数,这有什么问题呢

例如下面这两幅源图像
【读论文】AT-GAN_第6张图片
我们肯定希望更多的保存红外图像中的信息,因为可见光图像收到强光的污染,如果设置二者的权重相同的话产生的结果肯定并不是那么让人满意。这种设置下我们再来看下面这两幅源图像,我们可以看出可见光图像的图像质量是相当可以的,但如果我们给红外图像更高的权重就会导致可见光图像中的信息的丢失,从而导致生成的图像效果并不理想。
【读论文】AT-GAN_第7张图片

看完了上面两幅图像我们就了解了为什么作者采用动态权重来控制两种损失的比例。那么作者是怎么做的呢?

刚才我们已经了解到,作者的其中一个创新点就在于图像质量,那么怎么将图像质量评估结合到图像融合中?

这也就是SEM做的事情。

在这里插入图片描述
可以将X,Y认为是红外图像和可见光图像,通过计算二者的Q,然后根据二者所占的比例分配权重。

这个Q就是BRI-SQUE和图像熵的结合体,即依据这两项确定Q,我们知道BRISQUE越小,图像质量越好,而信息熵越大代表图像所蕴含的信息越丰富,通过这两项,我们就可以动态的给红外图像和可见图像损失分配权重。

损失

在这里插入图片描述
整体损失由三部分组成,分别是内容损失,结构损失,对抗损失。

内容损失

在这里插入图片描述
在这里插入图片描述
陌生一些的就是这个SD了,我们可以将其认为是强度损失。

那么其实内容损失就是梯度损失和强度损失两部分组成。

a就是我们前面说到的SEM得到的权重,即哪一个源图像的SEM值大,我们就倾向与保留哪一个的梯度信息和强度信息。

结构损失

在这里插入图片描述
结构损失同理,这里a与上面内容损失相同,采用SSIM(结构相似性)来定量表示融合图像和源图像之间的结构损失。

对抗损失

在这里插入图片描述
这里是生成器的对抗损失,很清楚的是我们肯定希望生成器生成的图像输入到辨别器之后,辨别器该输入图像既像红外图像又像可见光图像,这样就说明我们融合图像既保留了可见光图像的信息又保留了红外图像的信息。

【读论文】AT-GAN_第8张图片
辨别器的损失如上,一方面我们希望辨别器可以准确地识别出红外图像和可见光图像,因此第一个损失就是提高辨别器识别红外图像和可见光图像的能力,也就是说c设置为接近1的一个数。

第二部分就是对抗损失,我们希望辨别器可以准确地识别出融合图像,那么怎么表示辨别器觉得它是融合图像呢

如果说辨别器认为该输入图像既不是红外图像也不是可见光图像是不是就代表该图像为融合图像呢?

所以这里二点d设置为接近0的一个数。

到此,损失函数就介绍完毕了。

总结

这篇文章是我今年刚开学就读了的一篇文章,如今再来看看,正好写一下自己的阅读体会,非常强的一篇文章,是我见到的第一篇将图像质量评价结合到图像融合的文章,融合效果也是非常好,只能说大佬真强!!!

其他融合图像论文解读
==》红外与可见光图像融合专栏,快来点我呀《==

【读论文】AttentionFGAN

【读论文】DIVFusion: Darkness-free infrared and visible image fusion

【读论文】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

【读论文】DDcGAN

【读论文】Self-supervised feature adaption for infrared and visible image fusion

【读论文】FusionGAN: A generative adversarial network for infrared and visible image fusion

【读论文】DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

【读论文】DenseFuse: A Fusion Approach to Infrared and Visible Images

参考

[1] AT-GAN: A generative adversarial network with attention and transition for infrared and visible image fusion

你可能感兴趣的:(图像融合,深度学习,图像处理,生成对抗网络,深度学习,神经网络,计算机视觉,红外与可见光图像融合)