GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network

简介

这篇论文是依据Ramprasaath R. Selvaraju的Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization的论文来写的。Grad-CAM这篇文章展示出卷积神经网络的识别方式和人的识别方式有着异曲同工之妙。如图1所示,当识别狗时,网络会将“注意力”放在狗身上,同样的当识别猫时,网络会将“注意力”放在猫身上。详情可参见文献1、2。

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第1张图片GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第2张图片

图一

但是GAIN的作者发现了一个问题,那就是在识别某些物体的时候,网络容易会将“注意力”放在和所要识别的物体相关的东西上,而不会将“注意力”放在物体本身上。如图2所示,可以看出,网络在识别船的时候,却把“注意力”放在了水面上。

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第3张图片

图二

针对于本问题,作者提出了一种新的训练方式,通过在最小化原图像识别损失函数的同时来最小化遮挡住待识别物体的图像的识别分数来训练整个网络,训练后的网络能够更好的将“注意力”放在待识别的物体上。

guided attention inference networks(gain)工作方式

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第4张图片

图三

如图三所示,网络主要分为两个部分,第一部分为分类部分,就是简单的使用VGG对图像进行特征提取,然后使用全链接层实现对物体的识别。所以本论文的主要创新点主要集中在第二部分上。第二部分为注意力提取部分,它在很大程度上引用了Grad-CAM的思想,通过预测层对最后一层的feature_map求导之后再对其做globalaveragepool(GAP)得到,如式1,就代表了得到的每个feature_map对该类别预测的贡献程度。

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第5张图片

然后我们就可以利用这个来和我们最后一层的feature_map做卷积运算得到attention_map,如公式2。


得到attention_map后,我们就可以利用它来对原图像进行区域性的遮盖,在原文中,作者使用了自称为soft_mask的方法来实现这一点,soft_mask的公式为式3:


其中:


通过式3,就得到了遮盖后的图像。最后我们使用第一部分中的网络来实现对处理后的进行处理,并定义了注意力损失函数为:

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第6张图片

即最小化了将该图像识别为c类的概率。最终,总的损失函数被定义为:


其中是两部分损失函数的所占的比例,在文章中,作者使用的是1。

上面这种训练方式被作者成为weak supervision。此外为了提高attention map质量,作者还在gain的基础上添加了额外的监督部分integrating extra supervision,文中称这种方式为full supervision,如图四所示:

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第7张图片

图四

这种方式就是在weak supervision的基础上添加了基于pixel-level的图像分割数据的监督学习部分。这部分损失函数的计算公式为:


因此上面的损失函数也就变成了:


文中作者将设为了10。加入了这部分pixel-level的监督学习后,所得到的attention_map的精准度更高。同时本文也指出获取这种pixel-level的分割图是很费时的,而作者提出的这种方法可以大大减少对pixel-level分割图的需求量。

实验结果分析:

在文章的实验结果分析部分,作者通过将该方法与其他weakly supervised 的语义分割的算法做对比发现,在有无pixel-level的额外监督学习的情况下,本文提出的方法在语义分割的匹配度上都有着不错的提升。此外,作者还将该方法与Grad-CAM算法相比,结果表明该方法能够更好的得到attention map。但是最有趣的是作者所做的下面的一组实验,作者通过采集几张关于船的图片,如图五,基于Grad-CAM的算法在识别船的时候将“注意力”主要集中在了水面上,而不包含水面的船却不能被识别,包含水面但是不包含船的图片却被识别为船。相比之下,本文提出的方法能够有效的减少这种误识别,尤其是在加入了pixel-level的监督学习后。

GAIN论文解读 Tell Me Where to Look: Guided Attention Inference Network_第8张图片

图五

总结:

本文通过对卷积神经网络的学习方法进行改进,使得能够获得更好的attention map,因此能够提升图像语义分割及物体定位的性能。

参考文献:

https://arxiv.org/abs/1610.02391

https://blog.csdn.net/gm_margin/article/details/79339761

https://arxiv.org/abs/1802.10171

https://arxiv.org/abs/1603.06098

你可能感兴趣的:(论文解读)