本文主要贡献包括以下几点.
(1) 提出利用语义分割模型 DeepLab 代替 LIME 所使用的图像分割方法, 从而使 LIME 适用于目标检测模型.
(2) 分析并揭示 LIME 解释目标检测模型时的问题: 局部线性回归模型的忠诚度太低、权重太小. 详见第 4 节.
(3) 在解释目标检测模型时, 将其输出改造为关注每一类物体存在性概率的具体回归问题. 详见第 3.1 节.
(4) 提出使用 IoU, 在得到决策依据后, 可以在有标签数据集中对模型每一次预测的可信度进行定量计算.
近年来, 学界对目标检测问题的研究越发深入, 提出了大量基于深度学习的目标检测模型, 并在各类数据集中
表现出较好的性能. 一些基于传统 CNN 的目标检测模型, 如 Faster R-CNN[11]、YOLOv1[12]、YOLOv2[13]、YOLOv3[14]、YOLOv4[15]、YOLOX[16]等, 能在 PSACALVOC、COCO等数据集中达到相当高的准确率. 除了基于CNN 的模型, 随着自注意力机制[17]的广泛运用, 有大量基于 Transformer 的目标检测模型被提出, 如 DETR[18]、TPH-YOLOv5[19]、ViT-FRCNN[20]、Deformable DETR[21]等, 同样有不俗的性能. 此外, 也有许多基于某些特殊网络架构的模型, 比如基于脉冲神经网络的 Spiking-YOLO[22]
和基于 Matrix Nets 的模型[23], 这些模型在某些特定领域(比如小目标检测) 中有相当惊艳的表现.
因为目标检测的基础知识已经很熟悉了,就不过多介绍,具体内容可以看看之前得论文笔记,这篇论文所用的LIME倒是第一次看到,所以把它的介绍放上来给大家看看,
LIME (局部可解释的模型无关解释)是一种将回归问题模型 (Regressor) 看作黑箱的局部解释方法. 该方法针对模型的每一次预测 (Instance) 进行解释, 通过在局部使用线性回归模型对回归器的行为进行拟合, 给出每一个输入变量 (Feature) 对模型输出结果的影响. 理论上, LIME 的原理适用于所有回归器, 因此我们从 LIME 出发,对目标检测模型进行解释.
本文核心内容是对目标检测模型进行决策依据和可信度分析, 因此也属于对深度学习模型的可解释性研究.
对决策依据的分析理应从以上两方面出发.
上述问题可总结为 3 点.
(1) 特征图像块权重整体偏小.
(2) 有效特征数量低.
(3) 原始分割方法泛用性差
本节使用 DeepLab 代替原本的图像分割方法, 得到了可用于解释目标检测模型的解释器 (LIME+DeepLab).
通过对第 4.1 节中两个问题的研究发现, 图像块的分割大小与 R2、权重值、变化率之间可能存在某种正相关的联系, 可能与目标检测模型在局部行为的线性程度有关. 因此, 使用原分割算法, 并增大其核值可能是一种方法.
但增大核值本质是使分割算法对分割块的边界更加不敏感, 会导致部分背景与物体无法区分, 从而无法解释目标检测模型的决策依据是物体还是背景.
(1) 能够区分物体与背景;
(2) 能够区分不同的物体;
(3) 尽可能保留每个物体的完整性.
使用语义分割 (semantic segmentation) 模型: DeepLab, 可以满足以上条件. DeepLab 是一种基于深度学习的语义分割模型, 其图像分割结果如图 7 所示.
LIME 解释模型预测的过程如下.
(1) 对输入进行分割;
(2) 对输入进行扰动, 得到数据集;
(3) 训练局部线性回归模型, 得到解释.
将图片扰动算法改变为 DeepLab 后, 在大物体数据集中进行实验, 得到的局部线性回归模型的 R2 对比结果如表 6 所示. 从表中数据可以发现, 更换分割算法为 DeepLab 后, R2 的平均值达到 0.95, 说明几乎在每一次解释中,产生的线性回归模型都能在局部非常忠实地拟合目标检测模型的行为.