【文献翻译】综述:机器学习可解释性

原文链接:Review Study of Interpretation Methods for Future Interpretable Machine Learning

Abstract

近年来,黑箱模型因其精度高而得到迅速发展。平衡可解释性和准确性越来越重要。可解释性的缺乏严重限制了该模型在学术界和工业界的应用。尽管可解释的机器学习方法多种多样,但解释的视角和意义也各不相同。我们回顾了当前可解释的方法,并根据所应用的模型对其进行了划分。我们将其分为两类:具有自解释模型的可解释方法和具有外部协同解释的可解释方法。将具有外部协同解释的解释方法进一步分为基于实例的分支方法、SHAP方法、知识图方法、深度学习方法和聚类模型方法。分类的目的是帮助我们更好地理解可解释方法中应用的模型特征。这使得研究者更容易找到一个合适的模型来解决解释性问题。对比实验有助于发现不同方法的互补特征。同时,探讨了可解释机器学习的未来挑战和发展趋势,以促进可解释机器学习的发展。

Introduction

Motivation

越来越多的机器学习系统由于其高效的计算能力和高精度而被应用于许多领域。其中许多算法都有很好的性能,如Google推出的NASNet[1]体系结构在大规模图像分类识别中的应用。在验证集上的预测准确率为82.7%。然而,随着神经网络(NN)和深度学习(DL)的迅速发展,这种由复杂过程训练的神经网络模型就像一个黑匣子,很难理解为什么它能如此有效地工作。我们只知道该模型经过训练后可以给出一个预测结果。正确的预测只能部分解决最初的问题,有时你需要知道为什么模型会做出这种预测。

可解释的机器学习方法帮助我们解决问题。给出了黑箱模型的依据(evidence)。解释性机器学习方法的必要性如下:

  1. 协调知识结构各要素之间的矛盾或不一致。当模型结果偏离人们理解的方向时,需要一个解释来说明人类认知和机器行为之间的矛盾。

  2. 对于一些新兴的领域,如自动驾驶汽车和医疗人工智能,可解释性是必不可少的。缺乏对机器学习系统决策过程的理解和验证是这类领域的一个严重缺陷。

  3. 让模型更可信。人们需要知道为什么模型在实践中会产生某种结果,尤其是在高风险领域。有时分类器可能导致先入为主。人们想知道哪些特征放入用于做出决策的模型中,以及这些特征是否正确,以便人们相信该模型。

Literature Review

为了填补可解释机器学习的空白,研究者们从不同方面总结了可解释机器学习的方法。一些参考文献强调了术语在可解释性方面的区别。现有的工作包括澄清与可解释性相关的概念,区分“interpretability”和“explainability”。

在可解释评价(interpretability assessment)领域,Mohseni等对可解释性机器学习中使用的评价方法[4]进行了全面综述。在此基础上,提出了一个PDR(Prediction, Description, Relevant)框架[5]来评价可解释性,讨论了基于该框架的技术分类和相应的应用。Chakraborty等人[6]讨论了DL领域的可解释维度,并对这些维度上的可解释方法进行了分类。对于可解释性方法的分类,大多数文章都是基于固有的(intrinsic)可解释性模型和事后解释(Post-hoc explanation)[7],[8]。[7]的研究阐述了可解释方法对社会发展的影响,[8]进一步将可解释方法分为全局和局部两个方面。Guidotti[9]将黑盒模型问题定义为四类,并详细描述了每种类中不同的可解释方法。

Contributions

现有的可解释方法的分类主要集中在固有的可解释模型和事后解释两类。这种分类的主要考虑是获得解释的时间,它忽略了构建解释的模型的特征。因此,我们提出一个新的方面来分类和调查现有的解释性研究。基于可解释方法中所应用的模型,本文将可解释方法分为自解释模型(self-explanatory model)可解释方法和外部协同(external co-explanation)解释方法。

带有自解释模型的可解释方法的思想利用现有的可解释模型来构建黑盒模型的局部或全局近似来实现解释。一般来说,典型的可解释模型包括线性回归、逻辑回归、决策树和决策规则。不同的可解释模型有各自的适用领域。例如,决策树模型比线性模型更适合于非线性数据拟合。

另一方面,具有外部协同解释的可解释方法是以特定的方式解释黑盒模型。特定性主要体现在从黑箱模型中探索可解释的意义,用特定的方法或数据来解释黑箱。一些传统学科和新兴领域的内容在可解释机器学习中起着很大的作用。例如,Shapley值是基于博弈论的,而扩展方法SHAP可以很好地解释个体预测结果。知识图(KG)给出了合理的预测路径。

此外,一些代表性数据还有助于理解和调试黑盒模型。这些具有外部共同解释的可解释方法通常能够在指定的场景下对黑盒模型提供更适当的解释。因此,将外部协同解释的可解释方法分为以下三个维度,主要包括用数据实例解释黑箱模型、用具体方法解释黑箱模型(本文以SHAP和KG为例)、以及对黑箱模型本身的解释(本文以深度学习和聚类模型为例)。

这种划分的优势在于它突出了不同领域的特点,为机器学习中的问题找到了更好的解决方案。此外,从模型的角度对可解释方法进行分类,扩大了模型在不同研究领域的应用范围。KG以其推理能力和语义丰富度在迁移学习和推荐系统的可解性研究中发挥着重要作用。将广义可加模型与树形模型相结合,对黑箱模型进行解释,扩大了可解释方法的应用范围。该划分为可解释机器学习领域提供了一个新方向。

II. Interpretable methods with the self-explanatory model and specific scheme

实现可解释性的一个简单方法是直接使用可解释的模型。可解释的模型包括线性回归和决策树/规则[10]。它们对人类来说更加透明和容易理解。线性方程在模级(即权重)[11]上具有易于理解的解释。然而,它通常需要强大的统计假设,在多类分类任务中表现较差。

决策树/规则更好地解决了分类的解释问题。决策树对数据进行多次拆分,根据特征属性排列成层次树状结构。决策规则主要是IF-THEN语句,它足以满足决策的需要。它们卓越的解释能力可以归因于对人类决策的模仿。

在传统可解释方法的基础上提出了许多可解释方法,并对其进行了扩展,取得了良好的效果。同时,在可解释性领域也出现了一些具体的方案。它们拓宽了可解释性研究的领域,是未来发展的新方向。下面简要说明几种具体的解释方法。

首先,基于样本的解释(explanation)从数据集中选择特定的样本来解释黑盒模型[11]的行为。有影响力的例子往往能够从数据分布中对模型提供有意义的解释。在第5节中,构建了具有影响力的例子的比较实验,详细解释了这些例子如何帮助研究人员理解黑箱模型。

第二,SHAP (Shapley Additive interpretation)在可解释领域发挥着重要作用。Shapley值是SHAP方法的前身。Shapley值,一种来自合作(coalitional)博弈论的方法,是对任何机器学习模型的单个预测计算特征贡献的解决方案。提高了Shapley值的计算速度,并在此基础上进行了创新。通过计算每个特征对预测的贡献来解释实例的预测。参考文献[11]解释了哪些理论为SHAP的解释提供了可靠的依据。

第三,使用KG的可解释机器学习方法正在增加。KG是语义网和链接数据方法的产物,它由一组相互关联的实体和属性[12]组成。一组SPO(subject, predict, object)三元组由KG组成,每个三元组表示一个事实。与传统的知识表示方法相比,知识表示方法具有规模大、语义多样的特点。它的结构对人类也很友好。概念、属性和关系是理解和认知的基石。人类认识世界和理解事物的过程就是用概念、属性和关系来解释世界的过程。这就是为什么KG提供了可解释性的基础。

最后,DL模型是一个经典的黑盒模型。它通过深化网络的隐含层,调整内部节点之间的互连来解决复杂的决策问题。为了研究DL模型的可解释性,研究者从模型本身探索可解释的含义。这为神经网络的可解释方法提供了一种思路。例如,在解决分类问题时,单元特征与可理解的解释语义是否存在对应关系,其中哪一部分特征在图像分类中起着重要的作用。与其使用自解释模型的近似值来解释,不如探索模型本身,这更符合模型对问题的理解。

此外,在聚类模型中,类之间的距离信息往往有助于我们达到解释的目的。最后,结合聚类模型的特点,补充了可解释方法。

我们将可解释机器学习方法分为具有自解释模型的可解释方法和具有外部协同解释的可解释方法,如图1所示。在此基础上给出了详细的分类结构。还列出了一些方法的名称。
【文献翻译】综述:机器学习可解释性_第1张图片

III. Interpretable methods with the self-explanatory model

由于线性模型和决策树/规则模型处理特性不同,我们将具有自解释模型的可解释方法分为两类:基于决策树/规则的方法和基于线性的方法。这些构建的可解释方法既可以是全局可解释的,也可以在做出单独预测时提供解释。因此,这些方法有两种解释方式,即全局和局部。

此外,决策树/规则的结构使得从全局角度多元构建可解释模型成为可能。从模型中抽象出一组决策规则的解释不同于显式地构造一组决策规则的解释。因此,我们对基于决策树/规则的可解释方法进行了细分。

Interpretable methods based on linear model

  1. Global perspective

基于线性模型的可解释方法通常是通过直接构造具有特征的线性模型来近似。对于线性模型,一个简单的线性模型可能不够精确。改进后的广义线性模型(GLM)和广义加性模型(GAM)较好地处理了这些问题。

Ravikumar等人提出了一种高维非参数回归分类方法,称为稀疏可加模型(SpAM)[13],解决了可加模型在高维空间的拟合问题,使高维问题具有可解释性。

此外,线性模型还与树模型结合使用。Lou等人提出了一种基于有限大小梯度推进的树相加模型[14]。该方法保持了GAM的可解释性,并在低、中维数据集的分类和回归中取得了良好的效果。

结合线性模型的解释方法很少,因为从全局角度建立的结构准确性都很低。此外,线性模型不适合处理大量的相关特征和非线性数据。尽管如此,线性模型在适当的条件下仍能得到较好的解释结果,这种方法仍然值得探索。

  1. Local perspective

从局部角度来看,研究人员通常使用线性模型进行局部仿真。经典的方法是LIME。

LIME是一种与学习模型无关的局部代理模型[15],用来解释黑盒机器学习模型的单次预测。LIME的主要思想是使用一个可解释的线性模型来本地模拟未解释的模型。它通过扰动样本输入来判断某些特征对输出是否重要。这是局部可信的(It is locally faithful)。

尽管如此,LIME解释的范围并不清晰。Guo[16]等人提出了LEMNA,其核心思想与LIME类似。相比之下,LEMNA通过训练混合回归模型来明确决策的边界,并引入LASSO来处理特征依赖问题,弥补了LIME的缺陷。

与全局近似相比,局部近似的可解释方法具有更好的可信度和精度。但局部可解释边界往往需要结合其他方法确定。

Interpretable methods based on decision tree/rule model

  1. Global perspective

a: Model construction

一些学者采用决策树或决策规则直接构建全局可解释模型。[17]的研究结合了传统规则分类和关联(associative)分类的优点,提出了一种基于预测关联规则的分类方法(CPAR)。遵循了FOIL[18]的基本思想,CPAR采用了贪心算法直接从训练数据中生成规则,从而避免了像关联分类这样存在大量候选对象。

此外,决策树或规则的结构天生适合解决聚类可解释性问题。在参考文献[19]中,提出了一种无监督二叉树方法。它首先通过一系列递归二叉分割降低子样本内数据的异构性,然后修剪二叉树以聚合相邻节点。最后,相似的簇连接在一起。Bertsimas等人提出了一种无监督学习算法,利用混合整数优化技术[20]生成可解释的基于树的聚类模型。与K-Means相比,它具有更好的性能。在[21]的研究中,采用了两种不同的带决策规则的方法来描述聚类。一种是通过为每个聚类提供一组可解释的规则来定义聚类模型,另一种是利用具有所有特征的矩阵决策规则来构建聚类模型。

可解释模型的构建是透明的,但它通常不像一些黑盒模型那样精确。而这些约束往往是在研究者的经验下形成的,一些约束项目可能在解决问题时是无效的。

b: Interpretable model extraction

由于结构的特殊性,决策树或规则往往从黑盒中提取出来进行解释。在使用决策树解释模型的研究中,1996年首次提出了Trepan[22]方法来解释NN。它通过生成决策树来模仿给定网络的概念来提取可理解的符号表示。然后基于[23]中的归纳法对决策树提取进行改进。利用遗传算法对训练后的神经网络输入数据进行过滤,提高了算法的准确性和可理解性。参考文献[24]引入了一个名为DecText的方法,它可以找到可信度最高的最简单的树。处理连续特征的离散化技术使DecText的应用更加广泛

在规则提取的可解释性方法中,[25]中的一个调查研究提到了从训练好的神经网络中提取规则进行解释。为了提高训练后的神经网络集成的理解能力,提出了一种称为REFNE[26]的方法。它利用训练集来生成实例并从中提取符号规则。与之前的规则抽取方法不同,Wang和Rudin等人[27]提供了一种学习下降规则列表的贝叶斯框架。规则的顺序决定了每个规则应该对哪个示例进行分类。

与复杂的决策树或规则列表相比,简单有效的分类器更符合可解释性要求。在最新的研究中出现了两种优化决策树/规则分类器的方法。在[28]中,Matthijs等人实现了概率规则列表和最小描述长度(MDL)原理。为了避免过拟合和参数调整的需要,该算法优化了规则列表,减少了超参数,从而允许模型考虑复杂程度和拟合优度之间的权衡。Sagi等提出了一种将决策森林转化为可解释决策树[29]的方法,目的是保持决策森林的预测性能,使人类能够理解决策森林的有效分类。

使用决策树/规则提取的可解释方法可能不必牺牲模型性能,因为它具有良好的解释性。但这些方法的一个共同问题是,没有评价标准来判断提取的规则是否覆盖整个模型。
【文献翻译】综述:机器学习可解释性_第2张图片
2) Local perspective

基于决策规则的可解释方法Anchors[30]应运而生。这是为了弥补LIME覆盖范围不确定导致用户预测下降的不足。2显示了LIME和Anchors之间的区别。

图2(a)展示了一个黑箱模型复杂决策函数的玩具示例,它由不能很好地近似全局的蓝色/橙色背景表示。粗体红色的星星是正在解释的实例。圆圈和星星表示LIME抽样的实例。不同的大小表示权重,即与被解释实例的接近程度。虚线是通过线性模型学习到的局部解释。图2(b)展示了一个简单示例,直观地展示了Anchor的覆盖。Anchor方法基于IF-THEN规则,给我们一个局部范围,由想象的盒子显示。圆圈和星号是所解释的实例。虚线圆表示Anchor方法的样本范围。

此外,分区感知局部模型(PALM)[31]被提出,用来来处理深度神经网络(DNN)中的错误预测,帮助机器学习排除错误分类的原因。它通过一个元模型和一组子模型来模拟复杂的模型。将元模型构建为决策树有助于用户确定规则是否符合直觉,并有效地将有问题的测试示例与相应的训练数据联系起来。

应用通用框架[32]来寻找图像中对分类决策最有效的部分。通过元学习算法从大量可能的规则中找出适用于分类器的解释规则。根据这些解释规则,形成一个掩码来干扰图像,进而显示重要的特征。

局部解释方法通常与模型无关,具有较高的保真度和准确性。但该方法难以对集成模型的决策过程进行论证。如何确定局部近似的边界仍需进一步研究。

IV. Interpretable methods with external co-explanation

具有外部协同解释的可解释方法往往不仅依赖于黑盒模型的结构或输入数据,还需要一些具体的方法来实现协同解释。例如,KG和SHAP等方法具有自解释的特点。因此,我们将外部共解释的可解释方法分为以下五类。

Explanations based on instance

与自解释模型的可解释方法不同,基于样本的解释侧重于有影响力的样本,而不是特征的总结。基于样本的模型使用特定的样本来解释机器学习模型或数据分布的行为。自1972年以来,样本的使用一直是战术(tactical)决策发展的基础。案例推理(case-based reasoning, CBR)[34]已成功应用于现实世界的[35]。之后,Kim等人[36]提出了在无监督学习环境下结合基于CBR方法的贝叶斯框架。

目前流行的方法主要有寻找原型批评(finding prototypes & criticisms)和影响函数(influence function)。发现原型批评方法是一种基于样本的方法,使机器学习更容易理解。原型是代表所有数据的数据实例,而批评则恰恰相反。由Kim等人提出的MMD-critic[37]用于寻找原型和批评。选择了原型和批评的数量后,在MMD-critic中找到原型和批评。该理论有助于我们理解数据的分布,从而解释黑匣子。它给出了足够的例子来代表数据,帮助研究人员通过对异常情况下实例的推测来发现模型的缺陷。但没有对模型构建方面提出建议。

这个有影响力的实例还使机器学习模型具有可解释性。去除这个实例后,如果模型的参数或预测量发生较大变化,则训练实例会对模型产生影响。通过识别有影响力的实例,可以更好地理解行为和预测的解释。有两种方法可以测量影响:删除诊断(deletion diagnostics)和影响函数(influence function)。在删除诊断中,总是选择DFBETA和cook’s 距离[38]来衡量影响。然而,他们需要很长时间来重新训练模型。影响函数[39]不会删除任何实例,而是模拟实例在经验风险中增加权重时模型的变化程度。它是一种稳健的统计方法,使用梯度和Hessian矩阵来近似损失,其行为类似于删除实例。影响函数帮助理解模型行为和检测数据集中的错误。它比删除诊断更省时。

与MMD-critic相比,该影响函数能够从各种预测行为中发现差异。它还处理域不匹配和调试模型错误。其局限性在于影响函数仅适用于参数可微的模型,其影响还取决于人的判断。

Explanation based on shap

由于其理论基础扎实、效果分布均匀,因此SHAP在单项预测解释中得到了广泛的应用。SHAP方法于2017年[40]首次提出。对于特定的预测,它给每个特征赋一个重要的值。在局部代理模型的启发下,作者提出了另一种基于核的Shapley值估计方法KernelSHAP,提高了计算精度。它是一种模型不可知的方法,可以解释不同的模型,但它忽略了特征依赖性。例如,对于每个预测,树的特征属性通常是启发式的,而不是个性化的,这意味着当某个特征的真正影响实际上增加时,其分配的重要性就会降低。进一步的研究从不同的角度分析和解决了这些缺陷。

TreeSHAP通过显式地建模预期条件预测[41]来解决这个问题。他们提出了个性化特征贡献的丰富可视化,改进了经典的归因总结(attribution summaries)和部分依赖图。

由于缺乏对观测(observational)概率和介入(interventional)概率的仔细区分,对dropped特征哪种概率分布是正确的一直是混淆的。在对[42]的研究中,作者试图以珀尔开创性的因果关系著作为基础,对其进行澄清,以解决这一问题。

由于计算方法的缺陷,SHAP方法有时将非零的attribution赋给甚至没有被模型引用的特征。参考文献[43]使用公理化方法来研究Shapley值归因的许多操作化方法中的一些差异。它提出了一种被称为基线Shapley (BShap)的技术,并得到了一个适当的唯一结果来解决这个问题。

SHAP方法的优点是具有较高的可扩展性。不仅对于单独预测,而且对于入侵检测系统[44]和异常检测系统[45],SHAP框架提供了很大的解释性帮助。然而,当问题包含特征依赖和属性(feature dependence and attributes)时,该方法还需要与其他理论结合才能获得更好的结果。

Explanation based on knowledge graph

将KG应用于可解释机器学习是一个有意义的观点。KG本身的语义关系和知识推理为可解释性提供了良好的基础。这些特征在处理统计关系学习、推荐系统和迁移学习方面具有优势。因此,我们主要从这三个方面来说明KG在可解释性中的应用。当然,在其他问题和应用中,KG在解释方面也有很好的表现。在本节的最后,我们将看看KG的其他可解释的应用程序。

  1. Statistical relational learning

统计关系学习是一种综合逻辑表示、似然推理、机器学习和数据挖掘来获得复杂数据的似然模型的研究领域。知识推理是统计关系学习中常用的一种方法。统计关系学习的类型包括潜在特征模型和可观察特征模型。可观察特征模型是可解释的。例如,AMIE[46]从YAGO−10数据集[47]中提取的规则是可观察的解释特征。对于潜在特征模型,通常采用基于KG的嵌入[48]和事后可解释性[49]使问题具有可解释性。

  1. Recommendation system

推荐系统使用的黑盒模型并不能解释为什么会做出推荐,因为它们将决策过程抽象为一个高维的潜在空间,这超出了人类的直接理解。KG基于数据的语义相关性帮助我们提高可解释性。文献[50]通过使用kg解释使用非结构化文本描述数据的建议解决了一个问题。相对于依赖内容和协作的方法,本研究克服了理解能力不足和用户友好性差的缺点。

Ma等人提出了一个联合学习框架[51],从图(Graph)中总结可解释的规则,并将其与规则引导的神经网络推荐模型相结合。该框架鼓励两个模块相互补充,产生有效和可解释的建议。

Rose Catherine等人说明了如何利用KG[52]形式的外部知识来产生解释。它使用个性化的PageRank程序对条目和KG实体进行联合排序,然后将排序结果与推荐相结合,生成建议和解释。

同时,在解释方法中经常使用KG的路径。一个可见的路径通常证明推荐是正确的。Sun等人提出了一种递归知识图嵌入(RKGE)[53]方法,该方法采用递归网络体系结构自动学习实体间路径的语义表示。它提供了对推荐结果的有意义的解释。Wang等人提出了一个名为知识感知路径循环网络(KPRN)[54]的模型,该模型利用KG进行推荐。KPRN通过添加一个池来划分不同路径的优先级来解释推荐系统。与[55]、[56]中的类似方法相比,有了显著的改进。

  1. Transfer learning

在迁移学习中,KG提供了许多不同的解释方法。迁移学习是指利用从一个问题(源领域)中学习到的知识来解决另一个不同但相关的问题。有两个与KG相结合的框架提供了人类可以理解的迁移学习解释[57]。第一个解释了卷积神经网络(CNN)通过预先训练和微调从一个领域学到的特征到另一个领域的可移植性。其次,论证了zero-shot学习中多源域模型预测目标域模型的合理性。这两种方法都利用了KG和他们的推理能力,为迁移学习提供了充足的、人类可以理解的解释。

  1. Other interpretable methods

在图像分类任务中,Sarker等人提供了一种概念方法[58]来解释训练过的神经网络的输入输出行为。该方法建立了知识与模型之间的关系,以KG的形式表示背景知识。符号学习系统将输入输出与背景知识相结合,生成解释性理论[59]。图3显示了该方法的概念架构。它通过人类理解的语义概念来解释图像分类的结果。
【文献翻译】综述:机器学习可解释性_第3张图片

基于KG的方法因其各自的特点在不同的问题中有重要的应用。基于KG的黑盒模型的可解释方法可能成为未来的发展趋势。

Explanation based on deep learning

随着神经网络和DL算法的快速发展,CNN[60]在许多领域取得了显著的成就。特别是,深度神经网络(DNNs)在视觉任务中取得了优异的性能[61]-[63],然而,DL模型改善了模型的分辨能力,但牺牲了透明度设计和可解释性。因此,可解释性通常是DNN的一个弱点。我们很难理解网络的内在逻辑。近年来,越来越多的研究者意识到可解释性有助于突破DNN面临的瓶颈。此外,可解释理论还具有重要的实践价值。为了从每个类别中提取一些相似的解释范式,我们将方法分为特征可视化、网络透明性、属性标签和自动编码器。

  1. Feature Visualization

特征可视化通常是指卷积层的可视化和结果的可视化特征。前者主要表达神经网络视觉上获取的特征,主要是针对有缺陷的网络模型。后者主要显示判断结果的依据,帮助人们理解模型的决策。

a: Convolution Layer Visualization

Zeiler和Fergus在2014年提出了一种方法[64],该方法依赖于大型CNN,告诉我们每一层在CNN上都学到了什么。可视化技术使用反褶积将特征激活区域反映到输入像素空间。每一个转换层都知道用这种方式可以看到什么特征。

Jason等人引入了两种工具来可视化和解释NN[65]。第一个工具在处理图像时可视化训练过的卷积神经网络中每一层的激活。第二种方法是利用图像空间的规则优化来实现每个图层的视觉化。该工具帮助建立关于ConvNet如何工作的直觉,并使可视化更清晰和更易理解。

上述方法的优点是不需要修改模型,只使用模型参数来查看模型在训练中学习了什么。根据神经网络可视化原理解释了网络的结构和决策。但是一些可视化的结果是抽象的,并没有直接反映所表达的意义,这仍然是黑盒子的一部分。

b: Visual Characteristics of the Results

很多时候,人们希望看到网络判断的基础。反向传播方法为这种解释提供了良好的基础。来自输出神经元的重要信号通过每一层向后传播到输入,有效地显示了决策的重要特征。

在[66]中提出了两种可视化技术,它们依赖于计算输入图像的类分数的梯度。它们生成一个使类分数最大化的图像[67],并为给定的图像和类计算类显著性映射。Springenberg等人将其与反卷积网络相结合形成引导反向传播,限制梯度反向传播,得到更清晰的显著性图。

Bach等人提出了一种传播重要性评分的方法,称为分层相关性传播(LRP)[69]。它使我们能够可视化单个像素对多层神经网络预测的贡献。

梯度加权类激活映射(gradient-weighted class activation mapping, Grad-CAM) [70]方法被提出,使决策过程更加透明。这是CAM的一个改进。CAM是Zhou等人在2016年提出的一种可视化解译方法[71],需要对网络结构进行修改。它将全连接层替换为全局平均池化层(GAP),并将最后一层转换层的特征图和分类权重与分类对象的热图相结合。Grad-CAM并不需要改变网络结构,而是使用分数和特征图来计算梯度,获得类似于CAM的权重。它使用细粒度技术创建了高分辨率的类区别性可视化。

以上方法解释了每一个实例,为每一个判断提供了依据。但是很难找到负面的解释。

DeepLIFT解决了这个问题。它通过反向传播网络中所有神经元对输入的每个特征的贡献来分解神经网络对特定输入的输出预测[72]。每个神经元的激活情况与参考激活情况进行比较,然后DeepLIFT根据差异打分。通过选择性地分别考虑积极和消极的贡献,DeepLIFT还揭示了其他方法忽略的依赖性。

然而,解释是启发式的,这是一个常见的问题。Zhou等人试图通过结合训练集和语义标签来解决这个问题。[73]中的研究给出了一种称为可解释基分解(IBD)的可视化方法,该方法可以识别场景图像中不同成分的贡献。这些组件都携带语义信息,从Borden数据集学习[97]。IBD方法将活动分量转换成向量[74],计算每个分量的贡献,并通过CAM将每个分量可视化[71]。因此,场景图像可以通过不同的构图来表现。

  1. Network Transparency

有些方法更深入地研究了NN。Maithra等人提出了一种工具[75],称为奇异向量正则相关分析(singular vector canonical correlation analysis, SVCCA),用于快速比较两种表示,它不仅保持仿射变换的不变性,而且计算速度也很快。该工具有助于测量层次的内在维度,在训练中探索学习动态,并显示网络中特定类的信息是在哪里形成的。文献[76]引入了一种名为聚块上下文分解(ACD)的分层解释方法来解释DNN预测。ACD生成输入特征的层次聚类,每个聚类对最终预测的贡献。它在识别数据集偏差和诊断错误预测方面是有效的。Zharov等[77]提出了一种基于神经元激活序列空间分割的前馈神经网络解释方法。它关注于特定的输入区域,并根据不同于神经网络观察到的特征来表达解释。

这些方法通过将网络嵌入到神经网络中,使得网络结构更加透明。在一定程度上提高了计算性能,并给出了所需的说明。

Zhang等人一直在研究可解释机器学习。他们提出用解释图来解释CNN知识[78]。它引入了一个图形网络模型来揭示预先训练的CNN中隐藏的知识层次。转换层中的每个过滤器总是代表对象部分的混合物。它们自动地从每个过滤器中分离出不同的部分模式,构建一个解释性图表。随后提出了比解释图更简单的方法[79]。它增加了网络结构的约束。可解释性CNN在学习过程中在一个高转换层中自动为每个滤波器分配一个对象部分。这两种方法都以不同的方式提供了人们可以理解的卷积层信息,并增加了网络的透明度。

基于网络解剖构建GAN网络分析框架[80],从单元、对象、场景三个层面对GAN网络进行可视化和理解。网络解剖发现了与对象概念密切相关的可解释单元,并通过测量输出对象的控制能力来量化可解释单元。这些单元与其周围环境之间的关系可以解释神经网络结构的一部分。

这些方法通常通过构造近似的可解释模型和设计可解释的网络结构来提高网络的透明度。网络结构的透明设计往往比形式上的模型近似更简洁高效,但其泛化性能较低,算法设计受网络结构的限制。这两种方法都值得进一步研究。

  1. Attribute Tags

Zhou等人通过网络解剖解释深度视觉表征[81],[82]。它通过为单个单元提供有意义的标签来解释网络。他们通过评估个体隐藏单元和视觉语义概念之间的一致性来量化CNN表征的可解释性。

Lisa等人[83]提出了一种结合预测标签的方法,通过基于强化学习的损失函数来识别可见物体的属性。它解释了为什么标签适合图像。[84]中的研究提出了一个将内部网络激活与预测类标签集成的方案。它自动识别与模型所考虑的类集相关的内部特性,而不依赖于附加的注释。它通过将预测的类标签与测试时识别的相关特征获得的支持热图相结合来解释网络预测。

这些方法利用预测标签和语义注释来生成对人友好的解释。通过标签和语义信息,可以方便地理解神经网络的决策过程。带有属性标记的方法在实践中更容易开发和推广。

  1. Autoencoder

自编码器是一种用于半监督和无监督学习的人工神经网络。其功能是将输入信息作为学习目标,对输入信息进行表征学习。应用于降维和异常检测。传统的自编码器虽然不具有可解释性,但通过结合数据性质和部分解释方法,在解释领域得到了广泛的应用。

自动编码器通常与顺序数据相结合。它基于顺序数据信息的多尺度特性学习可解释表示[85],[86]。

在异常检测问题中,Schreyer等人提出了对抗性自编码网络的应用。学习的表示法提供了一组给定的journal entries的整体视图,并显著提高了检测到的accounting anomalies的可解释性。Antwarg等[87]将SHAP与自编码器结合,提高了异常检测的解释能力和鲁棒性。

此外,该自动编码器还用于提高可解释方法的性能。自编码器作为局部模型更好的加权函数,提高了LIME的稳定性和可信度[88]。

自动编码器的优点是它能学习到通过传统机器学习很难找到的更好的可解释表示。但要想取得较好的解释效果,必须依靠数据或现有的解释方法。

Explanation based on clustering model

在聚类模型中,经常使用类间距离测量作为一种解释方法。图聚类根据图的顶点的相似性对其进行分组,通常在大量的特征上使用复杂的距离函数。在[89]中,对距离函数进行了优化,以提供最终用户感兴趣的特征,并解决了生成可解释性聚类的问题。此外,聚类模型常常根据散点图进行解释[90]。散点图通过对象的相对位置隐含地提供了关于聚类特征的信息。但是,由于降维而产生的伪影(artifact)使得位置和距离容易发生畸变。文献[91]、[92]通过阐述散点图的距离来促进隐性信息的可解释性。文献[93]清晰地可视化了与解释所需信息相关的不确定性,以表达所有集群中的不确定性分布。该方法提高了用户对集群的信任度。

结合聚类距离的解释方法具有良好的可视化效果和更直观的结果。然而,聚类决策过程的提出仍需进一步研究。

V. Applications of interpretable methods to images

可解释方法应用领域的多样性和解释定义的不确定性使得可解释方法的比较分析十分罕见。然而,随着越来越多的可解释方法被提出,在应用中仍存在一些相似的方法。特别是在图像处理问题中,这些方法给出的解释往往是直观易懂的。因此,本文重现了近三年来一些经典的相似度方法,对图像处理进行了比较分析。然后我们通过综合比较讨论不同方法的优点和缺点。

Applications of feature visualization

不管是基于可解释模型还是特定的可解释方法,黑盒模型的许多解释都是通过特征可视化实现的。我们收集了五种方法,包括LIME[29]、Anchors[30]、CAM[71]、Guided Grad-CAM[70]和有意义的扰动[28]来显示可解释性。

这五种方法为单个实例的预测提供了依据。我们选择了三种类型的图像来测试三个重要的解释思路。第一个图像显示了成功预测的标准。第二个解释了预测失败的原因。第三个是分类器的预测结果与多目标图像中的目标是否一致。

从图4中,我们可以看到不同的方法显示了图像的重要部分。由ImageNet训练[94]并用于实验的分类器是Inception v3[95]。实验中的神经网络模型只是一个例子。你也可以使用其他预先训练过的分类器或者你的模型。
【文献翻译】综述:机器学习可解释性_第4张图片
图4。阐述了三种不同解释思路下的不同解释方法对模型的解释。每一行代表一个解释思想。左栏是三种想法下选择的原始图像,其他栏代表一种可解释的方法。基于有意义摄动法的扰动部分用红框标出。

我们发现,无论哪种类型的图像,不同的解译方法都能给出相对正确的解译。验证了结合特征可视化的可解释方法的可行性。但是,由于不同方法的原理不同,对方法的解释往往也有自己的特点。

解释错误分类的原因(第二行,将金毛犬识别为吉他),Anchor方法不仅突出了图像中包含吉他的部分,还突出了一些背景信息。与此同时,其他的方法集中在吉他和手。这样做有两个相对的优点。一是利用背景语义信息有助于分类。另一种是获得较高的置信度,因此除了客观特征外,还包括额外的信息,这些信息可能不是直接为了改进分类。

结合所有实验,有意义扰动法可以找到影响最终分类的最小区域。这种方法可以精确地找出某一物体被识别的原因,而无需突出非必要的证据。

此外,Guide Grad-CAM和LIME都有各自的优势。Guide Grad-CAM将热力与细粒度相结合,使图像不仅突出重要特征,而且显示纹理细节。LIME方法支持发现不利于分类任务的像素块,这使解释更加全面和更具解释性。

根据作者[29]提供的软件包,显示了对图像分类有害的部分,如图5所示。
【文献翻译】综述:机器学习可解释性_第5张图片

图5。说明对分类有不同影响的图像部分。绿色区域代表对分类有积极影响的位置,红色区域代表出现消极影响的位置。

Applications of influential instance

对于可解释的方法,我们也使用有影响力的例子来解释模型。我们选择了两种经典的方法,即影响函数和MMD-critic。它们对于理解复杂的数据分布和不同模型之间的差异特别有用。

我们从ImageNet[94]中提取了带有900个训练示例的黄金猎犬,以找到原型和批评(prototypes and criticisms)。

MMD-critic方法侧重于数据分布。原型是一个更接近数据分布的样本,而批评是一个与原型数据分布不同的样本,被理解为数据中的离群值。对于动物图像数据,该方法给出了有意义的结果。如图6所示,原型背景简单,特征鲜明,而批评者是穿着服装或半身的狗。

在MNIST数据集中,原型和批评的区别[96]在图7中更加明显。

MMD-critic方法选择的原型数据均为标准书写的标准数字,而在批评数据中,选择的数据为书写不规范、不清晰的数字。
【文献翻译】综述:机器学习可解释性_第6张图片

图6。通过使用MMD-critic算法[37]学习原型和批评。第一行列出了原型,第二行显示了批评。
【文献翻译】综述:机器学习可解释性_第7张图片

图7。通过使用MMD-critic算法[33]学习原型和批评。左边列举原型,右边列举批评。

与上述方法相比,影响函数法结合模型进行解释。

我们直接使用作者在[49]中提供的数据集来训练二进制分类器。影响函数法的训练前模型为RBF SVM和Inception v3。图8显示了两种模型的影响例子。

从实验结果来看,该方法显示了两种模型的不同性能。以一条鱼作为测试样本,SVM和Inception v3得到的影响例子是完全不同的。我们通过观察图9中两个模型的点图来解释原因。
【文献翻译】综述:机器学习可解释性_第8张图片

图8。RBF支持向量机和Inception v3的影响例子。前两行是测试图片下对SVM影响最大的例子(如图9所示),接下来的两行是基于Inception v3模型[39]。每个实例下面的值是到测试样本的欧氏距离。
【文献翻译】综述:机器学习可解释性_第9张图片

图9。两种方法下的影响与欧氏距离的关系及检验样本;a)测试图像,b)和c) SVM和Inception v3点图。对于训练样本的点图,横坐标为训练样本与测试样本之间的欧氏距离(可以理解为图像相似性),纵坐标为训练样本对单个测试样本的影响程度。绿色点表示鱼,红色点表示狗[35]。

在SVM模型中,训练样本与测试样本差异较大(欧氏距离较大)对模型判别测试样本的影响很小。在图9(b)中,对于距离距离较近的训练样本,鱼(绿点)是最有益的,狗(红点)是有害的,RBF作为软最近邻函数。结合图8,SVM中影响实例与样本之间的欧氏距离小于Inceptionv3。但在内容方面,这些图像几乎没有相关性的测试图像。实验结果表明,支持向量机方法对训练图像进行了表面匹配。

在Inceptionv3中,所选的影响实例在图像内容上与测试样本相似,尽管它们可能与测试图像有较大的欧氏距离。从图9©可以看出,在像素空间中,影响实例与欧氏距离的相关性较小。Inceptionv3提取了训练样本的概念特征,这是神经网络的优点。与图9 (b)和图9©相比,Inceptionv3的不同之处在于狗样本也有助于对测试样本(鱼)进行分类。这些狗看起来与图8中的测试样本非常不同,这增加了类间距离,这对分类器是有益的。

因此,两种方法的目的是不同的。影响函数法是为了反映训练实例、模型参数和损失的影响。结合测试样本和一些传统的测量方法(如欧几里得距离),通过有影响力的实例可以了解各种模型的缺陷和差异。

MMD-critic对复杂的数据分布有更深刻的理解。在调试模型的过程中,对具有高度代表性的原型和批评进行验证,可以节省时间,并有效地发现模型的哪些数据是有偏的。

然而,MMD-critic方法有显著的缺点。首先,该方法需要一个核函数来估计数据密度。但是,在选择核函数及其尺度参数时,并没有特定的标准。普通的径向基核(radial basis kernel)函数仅用欧氏距离描述像素空间的相似度。

从图像内容的角度来看,该方法没有注意图像特征所描述的语义信息。因此,就人类理解的语义概念而言,即使是来自相同分布的数据样本也可能有很大的不同。因此,所选择的原型是否真正代表了某一类数据集是不确定的。其次,MMD-critic方法将所有的特征作为输入,忽略了一些特征对预测结果毫无用处的事实。对于背景信息复杂、特征众多的数据,很难发挥其作用。

Applications in internal interpretation of NN

我们选择了Zhang等人的两种方法[78]、[79]来比较解释神经网络的研究。这两种方法都用于分析神经网络上层滤波器激活的复杂特征映射。一种是用图解的方式来解释CNN。从某种意义上说,它是对CNN的压缩和转换,通过这种方式,每个节点都获得了一定的可解释意义。

如图10(a)所示,在不同的图片中,每个节点代表相同的模式。另一种方法是向过滤器添加约束,使特性映射具有解释意义。与前者相似,它使激活区域在不同图像中具有相同的客观模式。如图10(b)所示,改进后的可解释CNN通常在其顶部卷积器中编码动物头部的模式进行分类。然而,如图10©所示,原始CNN是混乱的。
【文献翻译】综述:机器学习可解释性_第10张图片

图10。解释图中节点的可视化[78]和可解释CNN中的过滤器[79];a)基于解释图方法的图像补丁,b)可解释CNN中的可视化滤波器,c)普通CNN中的滤波器。

这两种方法都为网络结构注入了可解释性。差异主要体现在两种方法的设计上。解释图将卷积层转换为图节点,并使每个节点可解释。因此,它可以从不同的网络结构中产生,无需任何其他调整,这使得解释图的转换非常出色。可解释CNN方法通过修改网络结构,使卷积层具有可解释能力。与解释图方法相比,这种方法有一些限制,但它不需要额外的时间成本,除了训练网络。该方法对于具有CNN结构的模型更加方便、简洁。

此外,Zhou等人从另一个角度看待NN。他探讨了神经网络中神经元的可解释性。作者使用Broden数据集[97]对中间卷积层中每个隐藏单元的语义进行评分,并对具有语义信息的单元进行标记。通过评估隐含单元和语义概念之间的一致性,进一步量化了CNN的潜在可解释性。图11显示了与概念检测器对应的不同网络中的一些单元(GoogLeNet[98], VGG16 [99],ResNet512[62])。
【文献翻译】综述:机器学习可解释性_第11张图片
图11。当训练对ImageNet的图像进行分类时,从三个网络体系结构中选择神经元[94]。这些单独的神经元响应特定的高级概念[82]。

与以往的方法相比,该方法不是直接从卷积层开始,而是从一个单元来探索卷积层的解释。虽然在高对流层中获得的特征图的激活区域可能是纠缠的,但这些神经元可以对一个物体、一个部件或一种感觉进行清晰的检测。CNN内部可解释的部分是通过探查单元观察到的,所以CNN不是一个完全的黑盒。

然而,到目前为止对可解释性的观察只是一个暗示,对于可解释性单位是否或如何是所谓的解纠缠表征的证据,迄今还没有一个完整的理解[82]。

VI. CONCLUSION

本文将可解释机器学习方法分为两类:具有自解释模型的可解释方法和具有外部协同解释的可解释方法。外部协同解释的可解释方法主要基于实例、KG、DL和聚类模型。首先,介绍了可解释模型和协同解释可解释方法的基本概念。然后详细说明了这两类的方法。最后,我们进行了一些经典实验,找出了不同方法的优势和问题。我们将在下一部分进行比较,并有所期待。

我们在表1中总结了一些关键方法。我们从范围、解释、一般和结果四个维度对不同类型的方法进行了比较和分析。Scope表示可解释方法应用于模型的范围。解释器表示可解释方法所依赖的模型,其中KG表示知识图,NN表示神经网络。General表示一种可解释的方法是否可以对每个黑盒子进行概括,即它不考虑黑盒子的特性来产生解释。结果显示了解释方法的结果形式。

表1。打开和解释黑盒的方法摘要。
【文献翻译】综述:机器学习可解释性_第12张图片

Comparison analysis

从表一可以看出,与外部共解释的可解释方法相比,具有解释模型的可解释方法具有较高的先验泛化性。它们可以从任何框架中提取或生成,无论是本地框架还是全局框架。后者总是有一些局限性。例如,影响函数法只适用于具有可微参数的模型,如NN。KG可解释方法的应用主要集中在迁移学习和推荐系统上。因为KG的可解释性反映在语义符号推理、关联学习等方面。KG在SVM预测中不起作用。

然而,SHAP是一种特殊情况。它计算了个体特征的贡献作为解释结果。当一个决定是基于一个功能时,SHAP提供一个解释。

此外,两种解释的意义在某些方面是不同的。前者使用的特征主要是人工的,所以与后者相比,有时保真度较差。然而,这对人类来说更容易理解。后者主要基于数据或具体方案本身(如KG中有影响的实例或相关推理解释)。这些解释有时是抽象的。它们只能作为更好地调试机器学习模型的提示,并帮助人们理解。

结合模型特点的可解释方法主要体现在聚类模型和DL中。类内部距离在解释聚类模型时非常重要。这是对聚类模型的典型解释方法。

在深度学习模型方面,基于DL的可解释方法也具有上述外部协同解释可解释方法的特点。但是DL的复杂网络结构允许我们探索黑盒模型本身的可解释性。例如,如第四(D)节所述,网络模型的分类是根据图像的哪一部分,通过可视化的方式找到被神经元激活的区域[70]。通过添加约束,特征图更容易理解[79]。人类理解的神经元激活的一些语义概念是通过监测单个神经元发现的[81]。这使得深度学习模型本身不是一个完整的黑盒,基于DL模型的可解释方法是独特的。

Challenges and trends

  1. Challenges

虽然可解释机器学习在一定程度上取得了很大的进展,但在可解释机器学习领域仍然存在许多挑战。

首先,缺少对可解释性的衡量。没有公认的标准来定义什么是好的解释。根据上述方法,有特色解释,也有具体实例解释。获取这方面的度量是一个挑战。应该考虑用户的专业知识或可用于理解解释的时间等方面。一些研究人员已经打下了基础。Doshi-Velez和Kim[100]提出了可解释性评价的三个主要层次:应用层评价(真实任务);人级评估(简单任务);功能级评估(代理任务)。Robnik和Marko[101]提到了解释的属性,Miller[102]提出了一种对人类友好的解释理论。

第二,非启发式可解释理论框架不完整。许多基于DL的解释都是启发式的。例如,在图像分类问题中,模型认为图像中的狗的头部在分类中起着重要的作用,这就像我们作为一只狗对图像的直观理解一样。有人认为模型解释了这一点。然而,它也为错误分类的图像提供了一些解释。这种解释可能与人类的理解不一致。例如,当一个红苹果被错误的分类为番石榴时,模型的解释集中在苹果的不同部位,但导致错误分类的原因并不清楚。在对抗性样本的情况下,它也产生了解释,但它对解释的含义给出了模糊的答案。一些学者已经开始做相关研究,他们通过讨论对抗样本和原始样本的特征来寻找答案[103],[104]。

  1. Trends

随着跨学科领域的发展,可解释机器学习方法的应用被广泛应用于自动驾驶汽车、医疗AI等新兴领域。结合医学诊断的可解释方法在实验中取得了良好的效果[105]、[106]。多个领域的交叉极大地拓宽了可解释应用的范围。此外,可解释性研究不应局限于传统的解释模型,如线性模型或决策树模型。来自其他学科的解释方法对解释机器学习任务很有帮助。我们讨论的KG和SHAP等具体方案在可解释性研究领域具有优势。

随着可解释方法的应用越来越普遍,将可解释机器学习方法集成到开源工具库中也是未来的趋势。一方面,便于研究者使用可解释的方法;另一方面,降低了用户的技术门槛,使其得到更广泛的应用。已经有了一些库和工具包。XAI是一个以AI可解释性为核心设计的机器学习库。它由Ethical AI和ML研究所维护,包含各种工具,使数据和模型的分析和评估成为可能。

由Microsoft Research提供的InterpretML包,通过在统一的API和内置的可扩展可视化平台下公开多种方法,使从业者能够轻松地比较可解释性算法。IBM和纽约大学可视化实验室还提供了一个开源库来支持可解释的机器学习模型。

从问题的类型来总结是一个很好的起点。对同一问题的不同解释有不同的目的。本文只讨论了不同问题的不同模型的优缺点,但根据问题的特点创建不同的解释方法仍需进一步研究。

你可能感兴趣的:(深度学习,神经网络,机器学习,数据挖掘,人工智能)