Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

iccv2017 通过基于梯度的定位,从深层网络进行可视化解释
这篇文章其实是CAM的进化版,主要是为了解决CNN模型的不可见问题,CAM论文中通过Class Activation Mapping技术将模型中感兴趣的区域用热力图的方式区分出来。作者在这篇文章中提出了一个新的概念,叫做Grad-CAM,全称Gradient-weighted Class Activation Mapping。与CAM不同的是,文章使用了感兴趣、或者说是可指定类的梯度去指明了CNN模型是通过原图中的哪一部分区域得到这个分类结果,并且这个方法可以很方便的扩展到目前的任意一个训练完好的CNN模型中。通过合并Guided Backpropagation的结果,Grad-CAM还可以做到更细粒度的可视化分析,解释了为什么模型将原图分类到某一类的结果。Grad-CAM可以很方便的推广到图像分类、图像描述和视觉问答等任务的可视化分析中。

Introduction
目前CNN在图像分类、检测和分割任务中广泛使用并且被证明具有极高的实用价值,但是关于CNN结构的可解释性,一直没有一个比较好的结果。传统方法中每一部分的模型都是手工设计的算子,它们都是基于研究人员的经验和想法很直观的设计得到的,具有较高的解释性,但是在CNN模型中,深层模型和自学习的参数使得模型的解释性变弱甚至于很难解释,因此,找到CNN模型的可解释性依据是什么重要的。

早一点的时候,CAM这篇文章受NIN结构的启发,将网络最后的全连接层替换成GAP(global average pooling),然后设置最后一层卷积层的输出通道与待分类的类别数相同,这样训练出来的网络,针对每一个类别都有与卷积输出通道数维度相同的一维向量表示权值,通过加权累加可以得到解释性区域,我们称之为Class Activation Mapping。本篇文章提出的Grad-CAM其实是该种方法的一个扩展。作者认为一个好的可视化解释应该具备两个条件。

1、类别判别(具备图像中的类别定位能力)
2、高分辨率(解释性输出能包含一些细粒度的细节)
针对细粒度可视化的解释,导向反向传播(Guided Backpropagation)和反卷积(Deconvolution)可以在高分辨率的图像中体现一些图像的细节信息。而全局的类别判别也就是感兴趣区域可以使用梯度加权类激活映射图(Grad-CAM)来表示。下图是一个示例图像。

在这篇文章中作者的主要贡献为:

1、提出了一种类区分的定位技术叫做梯度加权类激活映射图(Grad-CAM),并且可以将其扩展到任何一个基于CNN的技术架构中,提供一个网络可视化、可解释的能力。
2、为了解释这项技术,作者对图像分类、图像描述和视觉问答都做了详细的实验研究和对比。
3、文章提到的技术指导了研究人员建立更加鲁棒、准确的网络模型。

grad-cam利用梯度信息流进CNN的最后一个卷积层,了解每个神经元对感兴趣的决策的重要性

5.3. Faithfulness vs . Interpretability
有趣的是,改变CNN评分的patch也是梯度CAM和引导梯度CAM分配高强度的patch,其秩相关分别为0.254和0.261(相比之下,通过引导反向传播,c-MWP和CAM分别达到了0.168、0.220和0.208)
超过2510张图片在帕斯卡2007 val集。

Conclusion
在这项工作中,作者提出了一种新颖的类别判别定位技术-梯度加权类激活映射(Grad-CAM)。通过生成视觉解释来使任何基于CNN的模型更加透明。此外,将Grad-CAM定位与现有的高分辨率可视化相结合以获得高分辨率的类别判别式引导渐变CAM可视化。作者的可视化在两个方面都优于所有现有的方法:可解释性和对原始模型的分类一致度。大量的人工实验研究表明,Grad-CAM可视化可以更准确地区分类,更好地揭示分类器的可信度,并帮助识别数据集中的偏差。最后,作者展示了Grad-CAM广泛适用于各种现成可用架构,其中包括图像分类,图像描述和图像问答等任务,它可以为可能的模型决策提供可信的视觉解释。我们相信,一个真正的AI系统不仅应该是聪明的,而且能够推断它的信念和行动,以便人类相信它。未来的工作包括解释深层网络在强化学习,自然语言处理和视频应用等领域的决策。

你可能感兴趣的:(CNN可视化)