论文那些事—Learning Deep Features for Discriminative Localization

1、摘要/背景

论文主要针对图片中不同类别物体定位的弱监督学习问题,提出了基于分类网络的图片识别与定位。在分类模型中,卷积层本身带有物体定位功能,比如一个物体在左上角,那么卷积之后的结果 feature-map在左上角的值会比较大。但分类网络中都带有全连接层,它是将feature-map所有位置的信息综合之后输出,和物体的具体位置无关,只关心最后的分类结果。作者想到丢失物体位置信息就是因为网络末端使用了全连接层,通过使用GAP代替全连接层,从而使卷积网络的定位能力延续到网络的最后一层(GAP并不是本文提出,本文主要讲述使用GAP用于定位)

2、全局平均池化(GAP)和CAM(Class Activation Mapping)

GAP和GMP都是全局池化的方法,也有学者在做弱监督物体定位时采用了这两种方法,而文章之所以选择GAP有以下两个原因:

  • GMP更关注物体特征最突出的部分,取最大的部分,而GAP则更希望网络识别物体的整个范围,并且在GAP中是可以找到很多突出部分的,即GAP相比于GMP来说识别这个物体的区域损失更小。
  • GAP的定位能力强于GMP。

论文那些事—Learning Deep Features for Discriminative Localization_第1张图片

 这幅图很像热力图,颜色深的地方代表特征区域,虽然CAM(定位图像中与类别相关的区域)可以解释为什么CNN如此分类,但是不能解释CNN为什么可以定位到类别相关的区域。

公式参考表:

论文那些事—Learning Deep Features for Discriminative Localization_第2张图片

 CAM的工作机制:

论文那些事—Learning Deep Features for Discriminative Localization_第3张图片

论文那些事—Learning Deep Features for Discriminative Localization_第4张图片 

 

从图中可以看到,经过GAP之后,我们得到了最后一个卷积层每个特征图的均值,通过加权和得到输出(实际中是softmax层的输入)。需要注意的是,对每一个类别C,每个特征图k的均值都有一个对应的。CAM的基本结构就是这样了,下面就是和普通的CNN模型一样训练就可以了。训练完成后才是重头戏:我们如何得到一个用于解释分类结果的热力图呢?其实非常简单,比如说我们要解释为什么分类的结果是羊驼,我们把羊驼这个类别对应的所有取出来,求出它们与自己对应的特征图的加权和即可。由于这个结果的大小和特征图是一致的,我们需要对它进行上采样,叠加到原图上去。

最后一层是强制生成了和目标类别数量一致的特征图,结果GAP以后再通过softmax层得到的结果,这样就给每个特征图赋予了很明确的意义,最后得到的输出:

 论文中的预测的类别分数被映射回先前的卷积层以生成类别激活图(CAM):论文那些事—Learning Deep Features for Discriminative Localization_第5张图片

 GAP操作后输出最后一个卷积层每个单元feature-map的平均值,之后再接一个softmax层用于分类,而该层的所有参数作为权重wck,对前方的GAP得到的feature-map做加权总和得到最后的输出,即CAM输出。此时CAM的输出尺寸和feature-map大小一致,故需要通过上采样方式还原叠加到原图中。(上采样:理解为放大图像,扩充为原图大小)

 CAM的可视化是通过fk激活值实现的,激活值越大的地方说明该区域越有可能属于对应某个分类,通过改变图像尺寸,将激活图还原成原图大小的图片,即可得到该分类对应在原图的位置,加权越多的区域颜色亮度越大,在通过设置阈值即可画出覆盖该区域的BBox,从而得到物体在图片中的定位边框。

 对于同一张图片,不同的分类对应图片中的物体不一样,从CAM还原到原图时定位区域也不一样(被激活的区域),且和所属分类相对应,证明了该方法的可行性。

论文那些事—Learning Deep Features for Discriminative Localization_第6张图片

 3、总结

文章通过CAM,可以通过不使用位置标记,来定位要识别物体的位置。这个技术为很多弱监督学习提供了启发。但是这个方法也有一个致命的缺点:它只能找出物体的一些突出特征的区域,比如狗的头部,这样就导致在定位的时候,容易只定位到物体的一部分。这也是弱监督学习方法一个亟待解决的问题。

 

你可能感兴趣的:(深度学习,pytorch,神经网络)