提升深度卷积网络可解释性Grad-CAM++(1): Improved Visual Explanations for Deep Convolutional Networks

作者: 19届 lz

论文:《Improved Visual Explanations for Deep Convolutional Networks》



问题:

虽然 Grad-CAM 等基于梯度的方法生成的可视化为 CNN 模型所做的预测提供了解释,并提供了预测类的细粒度细节,但这些方法有局限性
例如,当定位多个出现的同一类对象时
此外,对于单个对象图像,Grad-CAM 热图通常不能完整地捕获整个对象

贡献:

虽然存在几种可视化 CNN 决策的方法,即反卷积、引导反向传播、CAM 和 Grad-CAM,但可视化质量的评估主要通过人工评估或一些辅助指标(如关于边界框的定位误差来完成)。这不需要与负责网络决策的实际因素相关联。我们在这项工作中提出了新的指标来(客观地)评估所提出的解释对基础模型的可信度,可视化是否与决策直接相关。
我们展示了 Grad-CAM++ 在其他任务(除了识别之外)中的有效性——特别是图像字幕和 3D 动作识别。到目前为止,CNN 决策的可视化很大程度上仅限于 2D 图像数据,这是在视频理解中对 3D-CNN 进行视觉解释的极少数努力之一

提升深度卷积网络可解释性Grad-CAM++(1): Improved Visual Explanations for Deep Convolutional Networks_第1张图片
Grad-CAM++ 在以下方面的成功:
(a)同一类的多次出现(第 1-2 行)
(b)图像中对象的定位能力(第 3-4 行)。注意:与 Grad-CAM 相比,对于第 1 行和第 2 行的输入图像,所有狗在 Grad-CAM++ 和 Guided Grad-CAM++ 显着图中的可视化效果更好。类似地,类的整个区域针对第 3 行和第 4 行的输入图像(蛇的全身和鸟的头部/腿)进行本地化。 Grad-CAM 热图仅显示部分覆盖。



相关工作

CAM

在具有 GAP 的 CNN 中,特定类别 c 的最终分类分数 Y c 可以写成其全局平均池化的最后一个卷积层特征图 Ak 的线性组合。
在这里插入图片描述
然后将特定类别的显着图 Lc 中的每个空间位置 (i, j) 计算为:
在这里插入图片描述
Lcij 与特定空间位置 (i, j) 对特定类别 c 的重要性直接相关,因此可以作为网络预测的类别的视觉解释。 CAM 通过使用为给定图像生成的最后一个卷积层的激活图为每个类 c 训练一个线性分类器来估计这些权重。然而,这将其解释能力限制在具有 GAP 倒数第二层的 CNN 上,并且需要在训练初始模型后重新训练多个线性分类器(每个类别一个)。

Grad-CAM

Grad-CAM 旨在解决这些问题。这种方法将特定特征映射 Ak 和 c 类的权重 wck 定义为:
在这里插入图片描述
其中 Z 是一个常数(激活图中的像素数)。因此,Grad-CAM 可以与任何深度 CNN 一起工作,其中最终 Y c 是激活图 Ak 的可微函数,无需任何重新训练或架构修改。为了获得细粒度的像素尺度表示,Grad-CAM 显着性图通过逐点乘法与引导反向传播生成的可视化进行上采样和融合。这种可视化被称为 Guided Grad-CAM。



针对现有方法的不足 Grad-CAM++的改进

你可能感兴趣的:(lz读论文的日子(GAN),python)