第一次接触这个领域,有点在读哲学论文的感觉…
随着黑箱机器学习(ML)模型越来越多地用于在关键环境下做出重要的预测,AI[6]的各个利益相关者对透明度的需求越来越大。危险在于创建和使用决策是不合理的、合法的,或者根本不允许获得他们的行为的详细解释[7]。支持模型输出的解释是至关重要的,例如,在精确医学中,专家需要的来自模型的信息远比一个简单的二进制预测来支持他们的诊断[8]。其他的例子包括在交通、安全和金融方面的自动驾驶汽车等。
一般来说,考虑到对伦理人工智能[3]的需求不断增加,人类不愿采用不能直接解释、易于处理和值得信赖的[9]技术。人们惯常地认为,通过仅仅关注性能,这些系统将会越来越不透明。这是正确的,因为在模型的性能和透明度[10]之间存在一种权衡。然而,对系统理解的改进可能是导致纠正其缺陷的原因。在开发ML模型时,考虑将可解释性作为一个额外的设计驱动程序可以提高其可实现性,原因有3个:
综述的贡献:
图2. 图表显示了不同受众配置文件所寻求的ML模型中可解释性的不同目的。有两个目标贯穿其中:需要模型理解和法规遵从性。图片的部分灵感来自于[29]中展示的图片,并得到了IBM的许可。
剩余章节安排:
第2节:开始关于围绕人工智能中explainability和terminology的术语和概念的讨论,最后是上述可解释性的新定义(第2.1和2.2节),以及从XAI的角度对ML模型进行分类和分析的一般标准。
第3节和第4节:回顾了关于ML模型(分别是transparent models和post-hoc techniques)的XAI的最新发现,这些模型分别构成了上述分类法的主要部分。
第5节:讨论了方法族之间协同作用的好处和注意事项,其中我们提出了一般挑战的前景和一些需要谨慎对待的后果。
第6节:详细阐述了Responsible Artificial Intelligence的概念。
第7节:总结此次综述的结尾,旨在让社区参与这个充满活力的研究领域。
在继续我们的文献研究之前,首先可以很方便地建立一个共同的理解点,即这个术语在人工智能,更具体地说,是ML中代表什么。这确实是本节的目的,即暂停对关于这一概念所做的许多定义(what?),争论为什么可解释性在人工智能和ML中是一个重要的问题(why?what for?)并介绍XAI方法的一般分类,这将推动以后的文献研究(how?)
阻碍建立共同基础的问题之一是文献中对interpretability和explainability的可互换滥用。这些概念之间有显著的区别。首先,interpretability指的是模型的被动特征,指的是给定模型对人类观察者有意义的水平。此特性也被表示为透明度。相比之下,explainability可以被视为模型的一个主动特征,表示模型为了澄清或详细说明其内部功能而采取的任何行动或过程。
为了总结最常用的命名法,在本节中,我们阐明了伦理人工智能和XAI社区中常用的术语之间的区别和相似性。
在上述所有定义中,understandability是 XAI 中最重要的概念。transparency和interpretability都与这个概念密切相关:虽然透明度是指模型本身可以被人类理解的特征,但understandability衡量人类在一个模型中可以理解决策的程度。Comprehensibility还与understandability有关,因为它依赖于受众理解模型中包含的知识的能力。总而言之,understandability是一个两方面的问题:模型可理解性和人类可理解性。这就是为什么2.2节给出的XAI的定义提到audience(观众)
的概念,因为模型的用户的认知技能和追求的目标必须与模型的intelligibility和comprehensibility一起考虑正在使用。understandability所扮演的重要角色使audience的概念成为 XAI 的基石,我们接下来将进一步详细阐述。
这一节也太难理解了。。。
虽然它可能被认为超出了本文的范围,但值得注意的是围绕哲学领域的一般解释理论进行的讨论 [23]。 在这方面已经提出了许多建议,表明需要一个近似于解释结构和意图的一般、统一的理论。 然而,在提出这样一个一般理论时,没有人经得起批评。 目前,最一致的思想融合了来自不同知识学科的不同解释方法。 在解决人工智能中的可解释性(interpretability)时发现了类似的问题。 从文献中可以看出,对于什么是interpretability或explainability,目前还没有一个共同的理解点。 然而,许多贡献声称实现了增强可解释性(explainability)的可解释(explainability)模型和技术。
为了阐明这种缺乏共识的情况,将参考文献的起点放在德·冈宁给出的术语**可解释人工智能(XAI)**的定义上可能是很有趣的:
“ XAI将创建一套机器学习技术,使人类用户能够理解、适当地信任和有效地管理新兴一代的人工智能合作伙伴。 ”
这个定义汇集了需要提前解决的两个概念(理解和信任)。然而,没有考虑其他需要可解释人工智能模型的目的,如因果关系、可转移性、信息性、公平性和机密性[5,24-26]。我们之后将探究这些问题,作为支持上述定义不完整性的一个例子。
正如上面的定义所示,对人工智能的可解释性(explainability)的彻底、完全的理解仍然从我们的手指上滑落。对这一定义进行更广泛的重新表述(例如,“一种可解释的人工智能是一种对其功能进行解释的人工智能”)将不能充分描述相关术语,而不考虑其目的等重要方面。为了建立在完整性之上,首先需要对解释(explaination)进行定义。
正如从《剑桥英语词典》中提取的那样,"explaination(解释)"是“某人说清楚或容易理解的细节或原因”[27]
。在ML模型的上下文中,这可以改写为:“模型为使其功能清晰或容易理解而提供的细节或原因”。
正是在此时,意见开始产生分歧。根据前面的定义,可以指出两个歧义。首先,用来解释的细节或原因,完全取决于它们呈现给的观众。第二,解释是否让概念清晰还是容易理解也完全取决于观众。因此,必须重新表述该定义,以明确地反映该模型的可解释性对观众的依赖性。为此,重新修改的定义可以理解为:
给定特定的观众(audience),可解释性是指一个模型给出的使其清晰或易于理解的功能的细节和原因。
由于解释,作为论证,可能涉及加权、比较或说服观众与(反)论证的基于逻辑的形式化 [28],可解释性可能会将我们带入认知心理学和解释心理学的领域 [7], 因为衡量某件事是否已被理解或清楚地表达是一项难以客观衡量的艰巨任务。但是,衡量一个模型的内部结构在多大程度上可以被解释,也可以被客观地解决。任何降低模型复杂性或简化其输出的方法都应该被考虑为一种XAI方法。在复杂性或简单性方面,这个飞跃有多大,将对应于结果模型的可解释程度。仍未解决的一个潜在问题是,这样的XAI方法提供的可解释性收益可能不是直接量化:例如,模型简化可以评估基于减少架构元素的数量或参数模型本身的数量(通常,例如,DNNs)。相反,为了相同的目的而使用可视化方法或自然语言并不有利于对在可解释性方面所获得的改进进行明确的量化。推导评估XAI方法质量的一般指标仍然是一个开放的挑战,在未来几年应该成为该领域的焦点。我们将在第5节中进一步讨论这一研究方向。
可解释性与事后可解释性相关联,因为它涵盖了用于将不可解释模型转换为可解释模型的技术。在本文的其余部分中,可解释性将被视为主要的设计目标,因为它代表了一个更广泛的概念。一个模型是可以解释的,但是模型的可解释性来自于模型本身的设计。记住这些观察结果,可解释的人工智能可以定义如下:
对于一个观众,一个可解释的人工智能是一种能够产生细节或理由,使其功能清晰或容易理解的人工智能。
这个定义在这里作为本概述的第一个贡献,隐含地假设 XAI 技术针对手头模型的易理解性和清晰度可恢复到不同的应用目的,例如观众对模型输出的更好的可信度。
如引言所述,可解释性是人工智能目前在实际实现方面面临的主要障碍之一。无法解释或完全理解最先进的 ML 算法表现如此出色的原因是一个问题,其根源在于两个不同的原因,如图 2 中的概念性说明。
毫无疑问,第一个原因是研究界和商业部门之间的差距,阻碍了最新的ML模型在传统上在数字化转型中落后的部门的全面渗透,如银行、金融、安全和健康等。一般来说,这一问题发生在受严格管制的部门,有些人不愿实施可能使其资产面临风险的技术。
第二个轴是知识轴。 人工智能已经帮助世界各地的研究推断出远远超出人类认知范围的关系。 处理大量可靠数据的每个领域都在很大程度上受益于人工智能和机器学习技术的采用。 然而,我们正在进入一个时代,在这个时代,结果和绩效指标是研究中显示的唯一兴趣。 尽管对于某些学科来说,这可能是公平的情况,但科学和社会远不只是关注表现。 寻求理解为进一步的模型改进及其实际效用打开了大门。
下一节通过分析激励人们寻找可解释的人工智能模型的目标来进一步发展这些想法。
到目前为止,围绕XAI的研究活动已经揭露了从实现一个可解释的模型中得出的不同目标。几乎没有一篇论文完全一致描述一个可解释的模型所要求的目标。然而,所有这些不同的目标可能有助于区分执行ML可解释性给定练习的目的。不幸的是,很少有贡献试图从概念性的角度来定义这样的目标,[5,13,24,30]。我们现在综合并列举了这些XAI目标的定义,以确定本文回顾中所涵盖的全套论文的第一个分类标准:
可信度(Trustworthiness):一些作者同意将寻找可信度作为一个可解释的人工智能模型[31,32]的主要目标。但是,根据模型诱导信任的能力来声明其可解释性可能并不完全符合模型可解释性的要求。可信性可以被认为是一个模型在面对给定问题时是否会达到预期效果的置信度。虽然它应该是任何可解释模型的一个属性,但它并不意味着每个可信的模型本身都可被认为是可解释的,而且可信度也不是一个易于量化的属性。可信性不能作为一个可解释模型的唯一目的,因为两者之间的关系,如果达成一致,并不是相互的。部分论文在说明其实现可解释性的目的时提到了可信度的概念。然而,如表1所示,它们并不占最近与XAI有关的贡献的很大一部分。
因果关系(Causality)::可解释性的另一个共同目标是找到数据变量之间的因果关系。一些作者认为,可解释的模型可能会简化寻找关系的任务,如果它们发生,可以进一步测试相关变量[159,160]之间更强的因果关系。从观测数据中推断因果关系是一个随着时间[161]而被广泛研究的领域。正如研究这一主题的社区所广泛承认的那样,因果关系需要广泛的先验知识框架来证明所观察到的影响是具有因果关系的。ML模型只发现它从学习到的数据之间的相关性,因此可能不足以揭示其因果关系。然而,因果关系涉及到相关性,因此一个可解释的ML模型可以验证因果推理技术提供的结果,或在可用数据中提供可能的因果关系的第一直觉。表1再次显示,如果我们关注明确将因果关系作为目标的论文数量,那么因果关系并不是最重要的目标之一。
可移植性(Transferability):模型总受收到约束的限制,这应该允许其无缝的可移植性。这就是在处理ML问题[162,163]时使用训练测试方法的主要原因。可解释性也是可移植性的倡导者,因为它可以简化阐明可能影响模型的边界的任务,从而允许更好地理解和实现。类似地,仅仅理解模型中发生的内部关系就有助于用户在另一个问题中重新使用这些知识。在某些情况下,缺乏对模型的正确理解可能会导致用户走向不正确的假设和致命的后果[44,164]。可移植性也应该介于可解释模型的结果属性之间,但同样,并不是每个可移植模型都应该被认为是可解释的。正如表 1 中所观察到的,表明使模型可解释的能力是为了更好地理解重用它所需的概念或提高其性能的论文数量,是追求模型可解释性的第二个最常用的原因。
信息性(Informativeness):使用ML模型的最终目的是支持决策的制定[92]。但是,我们不应忘记,该模型所解决的问题不等于人类对应模型所面临的问题。因此,需要大量的信息来能够将用户的决定与模型给出的解决方案联系起来,并避免陷入误解的陷阱。为此目的,可解释的ML模型应该提供有关正在解决的问题的信息。在这些论文中发现的大多数原因是提取有关文献关于模型内在关系的信息。几乎所有的规则提取技术都证实了他们的方法,以更简单地理解模型内部的作用,并说明知识(信息)可以在他们考虑解释前因的这些更简单的代理中表达。这是在被review的论文中发现的最常用的论点,以支持他们期望达到可解释模型的结果。
置信度(Confidence):作为健壮性和稳定性的推广,作为鲁棒性和稳定性的推广,置信度应始终在一个期望可靠性的模型上进行评估。保持置信度的方法也因模型的不同而不同。如[165-167]所述,当从某个模型中得出interpretations(可解释性)时,稳定性是必须具备的。可靠的解释不应该由不稳定的模型产生。因此,一个可解释的模型应该包含有关其工作机制的信心的信息。
公平性(Fairness):从社会的角度来看,可解释性可以看作是在ML模型中达到和保证公平性的能力。在某一文献链中,一个可解释的ML模型显示了影响结果的关系的清晰可视化,允许对手头的[3,100]模型进行公平或伦理分析。同样,XAI的一个相关目标是强调模型暴露的数据的偏差。在涉及人类生命的领域,算法和模型的支持正在迅速增长,因此,可解释性应该被视为避免不公平或不道德地使用算法输出的桥梁。
可访问性(Accessibility):一小部分文献的贡献主张可解释性,因为它允许最终用户更多地参与改进和开发某个ML模型[37,86]的过程。很明显,可解释的模型将减轻非技术用户或非专家用户在不得不处理乍一看似乎难以理解的算法时所感受到的负担。这一概念被表达为被调查文献中第三个最被考虑的目标。
可交互性(Interactivity):[50,59]的一些贡献包括模型与用户交互的能力,作为可解释ML模型的目标之一。同样,这个目标与最终用户非常重要的领域有关,而他们调整和与模型交互的能力是确保成功的原因。
隐私意识(Privacy awareness):在回顾的文献中几乎被遗忘,ML模型可解释性的副产品之一是它评估隐私的能力。ML 模型可能对其学习的模式有复杂的表示。 无法理解模型 [4] 捕获并存储在其内部表示中的内容可能会导致隐私泄露。 相反,非授权第三方解释训练模型内部关系的能力也可能损害数据来源的差异隐私。 由于其在预计 XAI 将发挥关键作用的部门中的重要性,机密性和隐私问题将分别在第 5.4 节和第 6.3 节中进一步讨论。
本小节回顾了文献中广泛范围中所遇到的目标。所有这些目标显然都是在本节前面介绍的可解释性概念的表面之下。为了总结之前对可解释性概念的分析,最后一个小节处理社区遵循的不同策略,以解决ML模型中的可解释性。
文献明确区分了可通过设计解释的模型和那些可以通过外部XAI技术解释的模型。这种二元性也可以看作是可解释模型和模型可解释技术之间的区别;更广泛接受的分类是透明模型和事后可解释性。同样的二元性也出现在[17]的论文中,其中区别在于作者解决透明箱设计问题和解释黑盒问题的方法。这项工作,进一步扩展了透明模式之间的区别,包括所考虑的不同层次的透明度。
在透明度方面,我们考虑了三个层次:算法透明度、可分解性和可模拟性。在事后技术中,我们可以区分文本解释、可视化、局部解释、示例解释、简化解释和特征相关性。在这种情况下,[24]提出了一个更广泛的区别来区分:1)不透明的系统,从输入到输出的映射是用户不可见的;2)可解释系统,用户可以用数学分析映射;3)可理解系统,模型应该输出符号或规则及其特定输出,以帮助理解映射背后的基本原理。最后一个分类标准可以考虑包含在前面提出的分类标准中,因此本文将尝试遵循更具体的分类标准。
表1:在审查的文献中追求的目标是达到可解释性,以及他们的主要目标受众。
透明的模型本身就传达了某种程度的可解释性。属于这一类的模型也可以根据可解释的领域,即算法透明度、可分解性和可模拟性。正如我们接下来在图3所阐述的,这些类都包含它的前身,例如,可模拟模型同时是可分解和算法透明的模型:
图3:概念图说明了ML模型M的不同层次的透明度,表示手头模型的参数集:(a)模拟性;(b)可分解性;(c )算法的透明度。在不失一般性的情况下,本例将ML模型作为解释目标。但是,可解释性的其他目标可能包括给定的示例、输出类或数据集本身。
可模拟性是指一个模型被人类严格模拟或思考的能力,因此复杂性在这类模型中占主导地位。也就是说,简单但广泛(即规则过多)的系统属于这一特征,例如单一的感知器神经网络。这方面同意稀疏的线性模型比密集的[170]更可解释,可解释模型是一个可以通过文本和可视化[32]很容易地呈现给人类的模型。同样,赋予一个可分解模型可模拟性要求模型必须有足够的独立,以便人类将其作为一个整体来思考和推理。
可分解性(Decomposability)表示解释模型的每个部分(输入、参数和计算)的能力。它可以被认为是在[171]中所述的可理解性(intelligibility)。这一特征可能会增强人们understand、interpret或者explain模型行为的能力。然而,正如算法的透明度一样,并不是每个模型都能实现这一特性。可分解性要求每个输入都易于解释(例如,繁琐的特性不符合前提)。算法透明模型可分解的附加约束是,模型的每个部分都必须被人类理解,而不需要额外的工具。
算法透明度(Algorithmic transparency)可以以不同的方式被看到。它处理用户理解模型从其输入数据中产生任何给定输出的过程的能力。换句话说,线性模型被认为是透明的,因为它的误差表面可以被理解和推理,允许用户理解模型在它可能面临的[163]的每一种情况下将如何行动。相反,在深度架构中不可能理解它,因为loss landscape(???)可能是不透明的[172,173],它不能被完全观察到,而且解决方案必须通过启发式优化(例如通过随机梯度下降)来近似。算法透明模型的主要约束是,模型必须通过数学分析和方法来完全探索。
事后可解释性针对的是通过多种方法对设计难以解释的模型来提高其可解释性,如文本解释、视觉解释、局部解释、实例解释、简化解释和特征相关性解释技术。每一种技术都涵盖了人类自己解释系统和过程的最常见的方式之一。
进一步说,实际技术,或者更确切地说,实际的一组技术被指定,以减轻任何打算寻找适合其知识的特定技术的研究人员的未来工作。不仅如此,分类还包括应用了这些技术的数据类型。 请注意,许多技术可能适用于许多不同类型的数据,尽管分类仅考虑提出此类技术的作者使用的类型。 总体而言,事后可解释性技术首先按作者的意图(解释技术,例如通过简化解释),然后按所使用的方法(实际技术,例如敏感性分析),最后按数据类型(例如图像)划分。
文本解释(Text explanations)通过学习生成有助于解释模型结果的文本解释来处理为模型带来可解释性的问题。文本解释还包括所有生成表示模型功能的符号的方法。这些符号可以通过从模型到符号的语义映射来描述算法的基本原理。
事后可解释性的可视化解释(Visual explantions)技术旨在可视化模型的行为。 文献中存在的许多可视化方法都伴随着降维技术,这些技术允许人类可解释的简单可视化。 可视化可以与其他技术结合以提高他们的理解力,并且被认为是向不熟悉 ML 建模的用户引入模型中涉及的变量中的复杂交互的最合适方式。
局部解释(Local explanations)通过分割解空间并对与整个模型相关的不那么复杂的解子空间进行解释来解决可解释性。这些解释可以通过具有区分特性的技术来形成,这些特性只能解释整个系统的部分功能。
通过示例解释(Explanations by example)考虑提取与某个模型生成的结果相关的数据示例,从而能够更好地理解模型本身。类似于人类在试图解释给定过程时的行为,示例解释主要集中在提取代表性的例子,这些例子抓住了被分析的模型发现的内部关系和相关性。
简化解释(Explanations by simplification)统称是指在待解释的训练模型的基础上重建一个全新系统的技术。这个新的简化模型通常试图优化其与先前功能的相似性,同时降低其复杂性,并保持相似的性能分数。这一事后技术家族的一个有趣的副产物是,由于简化的模型相对于它所表示的模型的复杂性降低,因此通常更容易实现。
最后,事后可解释性的特征相关性解释(feature relevance explanation)方法通过计算模型所管理变量的相关性得分来阐明模型的内部功能。这些分数量化了一个特征对模型输出的影响(敏感性)。对不同变量之间的分数进行比较,可以揭示模型在产生其输出时对每个这些变量的重要性。特征相关性方法可以被认为是解释模型的一种间接方法。
上述分类(如图4所示)将在下面的章节(表2)中回顾ML模型的特定/不可知的XAI技术时使用。对于每个 ML 模型,提出了对这些类别中的每一个命题的区别,以构成该领域趋势的整体形象。
图4:概念图显示了可用于 ML 模型 M的不同事后可解释性方法。
前一节介绍了透明模型的概念。如果一个模型本身是可以理解的,那么它就被认为是透明的。本节中调查的模型是一套透明模型,它们可以属于前面描述的模型透明度的一个或所有级别(即可模拟性、可分解性和算法透明度)。在下面的内容中,我们提供了这个声明的原因,并在图5中给出了图形支持。
Logistic回归(LR)是一种分类模型,用于预测具有二分法(二进制)的因变量(类别)。然而,当因变量连续时,线性回归将是它的同音异义词。该模型假设预测器和预测变量之间存在线性依赖关系,阻碍了对数据的灵活拟合。这个具体的原因(模型的刚度)是将模型保持在透明方法的保护伞下的原因。然而,如第2节所述,可解释性与某个观众(audience)相关联,这使得一个模型属于这两类,这取决于谁来解释它。通过这种方式,逻辑和线性回归虽然清楚地符合透明模型的特征(算法透明度、可分解性和模拟性),但也可能需要事后解释技术(主要是可视化),特别是当模型要向非专家观众解释时。
该模型的使用已经在社会科学中应用了相当长的时间,这促使研究人员创造了向非专家观众解释模型结果的方法。大多数作者都同意了用于分析和表达LR的可靠性的不同技术[174-177],包括整体模型评估、统计学个体预测因素的检验,拟合优度统计和预测概率的验证。整体模型评估显示了应用模型比基线的改进,显示了它是否真的在没有预测的情况下改进了模型。通过计算wald卡方统计量来显示单个预测因子的统计学意义。拟合优度统计数据显示了模型对数据的适应度质量以及这一点有多重要。这可以通过采用不同的技术来实现,例如所谓的Hosmer–Lemeshow (H-L)统计量。预测概率的验证包括测试模型的输出是否与数据所显示的结果相一致。这些技术展示了表示模型的适合度及其行为的数学方法。
除了统计学之外,其他学科的其他技术也可以用来解释这些回归模型。当向不精通统计数据的用户呈现统计结论时,可视化技术非常强大。例如,[178]的工作表明,使用概率来传达结果,意味着用户能够在10%的情况下正确估计结果,而在使用自然频率的情况下为46%。虽然逻辑回归是监督学习中最简单的分类模型之一,但也有一些概念必须加以注意。
在这推理过程中,[179] 的作者揭示了对源自 LR 的解释的一些担忧。他们首先提到了将对数优势比(log odd ratios)和奇数比(odd ratios)解释为实质性效应(substantive effects)可能是多么危险,因为它们也代表了未观察到的异质性。与第一个问题相关联,[179]还指出,在具有不同变量的模型之间比较这些比率可能有问题,因为未观察到的异质性可能会有所不同,从而使比较无效。最后,他们还提到,在不同样本、组和时间之间的这些概率的比较也是有风险的,因为在样本、组和时间点之间的异质性的变化是不知道的。最后一篇论文旨在将模型解释可能带来的问题可视化,即使它的构造与 LR 的构造一样简单.
同样有趣的是,对于逻辑或线性回归等模型来保持可分解性和可模拟性,其大小必须有限,并且使用的变量必须被用户理解。如第2节所述,如果对模型的输入是复杂或难以理解的高度工程特征,那么手头的模型将远不能被分解。同样地,如果模型太大,以至于人类不能把模型看作一个整体,那么它的模拟性将会受到质疑。
决策树是模型的另一个例子,它可以很容易地满足透明度的每个约束。决策树是分层的决策结构,用于支持回归和分类问题[132,180]。在最简单的方面,决策树是可模拟的模型。 但是,它们的属性可以使它们可分解或在算法上透明。
决策树总是徘徊在透明模型的不同类别之间。它们的利用与决策环境密切相关,这就是为什么它们的复杂性和可理解性一直被认为是至关重要的原因。这种相关性可以在有关决策树简化和生成的文献的热潮中找到[132,180-182]。如上所述,虽然能够拟合透明模型中的每个类别,但决策树的个体特征可以将它们推向算法透明模型的类别。一种可模拟的决策树是一种可由人类用户管理的决策树。这意味着它的大小有点小,而且特征的数量及其含义也很容易理解。大小的增加会将模型转换为可分解的模型,因为它的大小阻碍了人类对模型的完全评估(模拟)。最后,进一步增加其规模和使用复杂的特征关系将使模型在算法上透明,摆脱以前的特征。
由于决策树具有现成的透明度,它们长期以来一直被用于决策支持上下文中。这些模型的许多应用不属于计算和人工智能(甚至信息技术)领域,这意味着来自其他领域的专家通常乐于解释这些模型的输出[183-185]。然而,与其他模型相比,它们较差的泛化特性使得该模型系列在应用于预测性能之间的平衡是最重要的设计驱动因素的场景中不太有趣。树集成旨在通过聚合在不同训练数据子集上学习的树执行的预测来克服这种糟糕的性能。 不幸的是,决策树的组合失去了所有透明属性,要求采用事后可解释性技术,如论文后面审查的技术。
属于透明模型的另一种方法是 K 最近邻 (KNN),它以一种方法论简单的方式处理分类问题:它通过对其 K 个最近邻(其中邻域)的类别进行投票来预测测试样本的类别(其中邻域关系是由样本之间的距离度量引起的)。 在回归问题的上下文中使用时,投票被与最近邻居关联的目标值的聚合(例如平均值)代替。
在模型的可解释性方面,重要的是要观察到,由KNN模型生成的预测依赖于样本之间的距离和相似性的概念,这可以根据所解决的具体问题进行定制。有趣的是,这种预测方法类似于基于经验的人类决策,它根据过去类似案例的结果来决定。在需要模型可解释性的情况下,为什么KNN也被广泛采用[186-189]。此外,除了简单的解释之外,检查一个新样本被分类在一个组内的原因,以及检查当邻居K的数量增加或减少时,这些预测是如何演变的能力,增强了用户和模型之间的交互作用。
我们必须记住,如前所述,KNN的透明度类别取决于特征、邻居的数量和用于度量数据样本之间相似性的距离函数。非常高的K阻碍了人类用户对模型性能的完整模拟。同样,使用复杂特征和/或距离函数也会阻碍模型的可分解性,将其可解释性仅限制在其算法操作的透明度上。
基于规则的学习是指生成规则来表征它打算从中学习的数据的每个模型。规则可以采用简单if-then
规则的形式,或者简单规则的组合来形成它们的知识。同样与一般规则模型家族有关,基于模糊规则的系统被设计为更广泛的行动范围,允许在不精确的领域上定义口头制定的规则。模糊系统改进了与本文相关的两个主轴。首先,它们赋予了更多可理解的模式,因为它们以语言术语运作。其次,它们在具有一定程度不确定性的情况下比经典规则系统表现得更好。基于规则的学习显然是透明的模型,它们经常被用来通过生成解释他们的预测[126,127,190,191]的规则来解释复杂的模型。
规则学习方法已广泛应用于专家系统[192]中的知识表示。然而,规则生成方法的一个核心问题是所生成的规则的覆盖范围(数量)和特异性(长度)。这个问题直接与它们的使用意图有关。在构建规则数据库时,用户所寻求的一个典型的设计目标是能够分析和理解模型。模型中的规则数量显然会提高模型的性能,这会损害其可解释性。同样,这些规则的特异性也不利于可解释性,因为一个具有大量前因和/或后果的规则可能会变得难以解释。在同样的推理中,基于规则的学习器的这两个特征与第 2 节中介绍的透明模型的类别一起发挥作用。覆盖范围或特异性越大,模型就越接近于算法透明。 有时,从经典规则过渡到模糊规则的原因是放宽规则大小的约束,因为可以覆盖更大的范围,而对可解释性的压力较小。
基于规则的学习在跨领域的可解释性方面是很好的模型。它们与人类行为的自然和无缝关系使它们非常适合理解和解释其他模型。如果获得了一定的覆盖阈值,则可以认为规则包装器包含了关于模型的足够信息,可以向非专家用户解释其行为,不会丧失将生成的规则用作独立预测模型的可能性。
在统计学中,广义加性模型(GAM)是一种线性模型,其中被预测变量的值由为预测变量定义的一些未知光滑函数的聚合给出。该模型的目的是推断出聚合组成近似于预测变量的平滑函数。这个结构很容易解释,因为它允许用户验证每个变量的重要性,即它如何(通过其相应的函数)影响预测的输出。
与所有其他透明模型类似,文献中充满了使用GAM的案例研究,特别是在与风险评估相关的领域。与其他模型相比,这些模型足够容易理解,使用户对使用它们在金融[193-195]、环境研究[196]、地质学[197]、医疗保健[44]、生物[198,199]和能源[200]方面的实际应用有信心。这些贡献大多使用可视化方法来进一步简化对模型的解释。如果满足其定义中提到的属性,GAM 也可能被视为可模拟和可分解的模型,但在某种程度上大致取决于对基准GAM 模型的最终修改,例如引入链接函数来将聚合与预测输出联系起来,或者考虑预测器之间的交互。
总而言之,像上述那样GAM的应用有一个共同的因素:可理解性。用GAMs进行这些研究的主要驱动力是了解其潜在的关系,建立了可供审查的案例。在这些情况下,研究目标不是为了准确性本身,而是需要理解背后的问题和数据中涉及的变量背后的关系。这就是为什么GAM在某些社区被接受为他们事实上的建模选择,尽管与更复杂的社区相比,它们公认的表现不佳。
贝叶斯模型通常采用概率有向无环图模型的形式,其链接表示一组变量之间的条件依赖关系。 例如,贝叶斯网络可以表示疾病和症状之间的概率关系。 给定症状,该网络可用于计算各种疾病存在的概率。 与 GAM 类似,这些模型也清晰地表达了特征与目标之间的关系,在这种情况下,这些关系是由将变量相互链接的连接明确给出的。
贝叶斯模型再次低于透明模型的上限。它的分类使其处于可模拟、可分解和算法透明的状态之下。然而,值得注意的是,在某些情况下(过于复杂或繁琐的变量),模型可能会失去前两个属性。贝叶斯模型已被证明在各种应用中产生了伟大的见解,如认知建模[201,202]、渔业[196,203]、游戏[204]、气候[205]、计量经济学[206]或机器人[207]。此外,它们还被用来解释其他模型,如平均数集合[208]。
当 ML 模型不符合任何要求将其声明为透明的标准时,必须设计一种单独的方法并将其应用于模型以解释其决策。这是事后可解释性技术(也称为建模后可解释性技术)的目的,它旨在传达有关已开发模型如何为任何给定输入生成预测的可理解信息。在本节中,我们对不同的算法方法进行事后解释,区分:
1)那些为任何类型的ML模型而设计的;
2)那些为特定ML模型设计的,因此不能直接外推到任何其他学习者。
我们现在详细介绍了围绕不同ML模型的事后可解释性所确定的趋势,如图6所示,以层次化书目类别的形式进行分类,总结如下:
用于事后可解释性的模型无关的技术(第4.1节),它可以无缝地应用于任何ML模型,而不考虑其内部处理或内部表示。
为解释某些ML模型而定制或专门设计的事后可解释性。我们将文献分析分为两个主要分支:处理浅ML模型事后解释性的贡献,统称为所有不依赖于神经处理单元分层结构的ML模型(第4.2节);以及为深度学习模型设计的技术,相应地表示神经网络和相关变量的家族,如卷积神经网络、递归神经网络(第4.3节)和包含深度神经网络和透明模型的混合方案。对于每个模型,我们对研究界提出的最新事后方法进行了彻底的审查,并确定趋势,然后进行这些贡献。
我们在第 4.4 节结束了我们的文献分析,在那里我们提出了第二个分类法,通过对处理深度学习模型的事后解释的贡献进行分类来补充图 6 中更一般的分类法。
用于事后解释的模型无关技术被设计为插入任何模型,目的是从其预测过程中提取一些信息。有时,简化技术用于生成模仿其前因的代理,目的是使某些事情易于处理并降低复杂性。其他时候,意图集中于直接从模型中提取知识,或者简单地将其可视化,以简化对其行为的解释。按照第2节中介绍的分类法,模型无关的技术可能依赖于模型简化、特征相关性估计和可视化技术:
简化解释(Explanation by simplification)。它们可以说是在模型无关的事后方法类别下最广泛的技术。在这一类别中也存在局部解释,因为有时,简化的模型只代表模型的某些部分。几乎所有采用这条路径来简化模型的技术都是基于规则提取技术的。在对这种方法最著名的贡献中,我们遇到了LIME[32]及其所有变体[214,216]的技术。LIME原理 。LIME围绕一个不透明模型的预测建立局部线性模型来解释它。这些贡献属于简化解释和局部。除了LIME外,另一种提取规则的方法是G-REX[212]。虽然它最初不是为了从不透明模型中提取规则,但 G-REX 的通用命题已经扩展到还考虑了模型可解释性的目的 [190,211]。 与规则提取方法一致,[215] 中的工作提出了一种学习 CNF(合取范式)或 DNF(析取范式)规则的新方法,以将复杂模型连接到人类可解释的模型。另一个来自同一分支的贡献是在 [218] 中,作者通过将透明模型逼近复杂模型,将模型简化公式化为模型提取过程。 在 [120] 中从不同的角度进行了简化,提出了一种提取和审计黑盒模型的方法。 其中,暴露了两个主要思想:一种模型提炼和比较审计黑盒风险评分模型的方法;以及一个统计测试,以检查审计数据是否缺少训练时使用的关键特征。模型简化的流行是显而易见的,因为它在时间上与关于XAI的最新文献相一致,包括诸如LIME或G-REX等技术。这表明,这种事后可解释性方法预计将继续在XAI上发挥核心作用。
特征相关性解释(Feature relevance explanation)技术的目的是通过排序或测量每个特征在待解释模型的预测输出中的影响、相关性或重要性来描述一个不透明模型的功能。在这一类中发现了一个命题的组合,每一类都采用了具有相同目标的不同算法方法。一个富有成效的贡献是被称为SHAP(SHapley Additive exPlanations)的[224]。它的作者提出了一种方法来计算每个特定预测的附加特征重要性得分,该方法具有一组理想的属性(局部精度、缺失性和一致性)。另一种处理每个特征对预测的贡献的方法是[225]合作博弈论和局部梯度[234]。类似地,通过局部梯度,[230]测试每个特性的变化需要产生模型输出的变化。在[228]中,作者通过对特征进行分组来分析模型中发现的关系和依赖关系,这些特征结合起来,带来了对数据的见解。[173] 中的工作提出了多种措施来量化输入对系统输出的影响程度。他们的QII(定量输入影响)测量方法在测量影响时解释了相关的输入。相比之下,在[222]中,作者在现有SA(敏感性分析)(求偏导?)的基础上构建了一个全局SA,它扩展了现有方法的适用性。在[227]中,提出了一种适用于可微图像分类器的实时图像显著性方法。[123]中的研究提出了所谓的自动结构识别方法(ASTRID)来检查哪些属性被分类器用来生成预测。该方法找到最大的特征子集,使得用该特征子集训练的分类器的准确度无法与建立在原始特征集上的分类器的准确度区别开来。在 [221] 中,作者使用影响函数将模型的预测追溯到训练数据,方法是只需要模型的Oracle版本可以访问梯度和Hessian向量积 。 还发现通过修改模型的输入来创建反事实示例的启发式方法有助于其可解释性 [236,237]。 与那些试图通过简化来解释的人相比,发现类似数量的出版物通过特征相关技术来解决可解释性问题。 许多贡献可以追溯到 2017 年,一些来自 2018 年,这意味着与模型简化技术一样,特征相关性也已成为当前 XAI 领域中一个充满活力的主题研究。
视觉解释(Visual explanation)技术是实现模型无关解释的工具。这一领域的代表性工作可以在[222]中找到,它提供了一系列可视化技术组合,以帮助解释建立在前面提到的扩展技术(GlobalSA)集上的黑盒ML模型。在[223]中介绍了另一套可视化技术。作者提出了三种新的SA方法(基于数据的SA、蒙特卡罗SA、基于聚类的SA)和一种新的输入重要性度量(平均绝对偏差)。最后,[238]提出了ICE(个体条件期望)图作为一个可视化由任何监督学习算法估计的模型的工具。视觉解释在事后解释模型不可知技术领域并不常见。由于这些方法的设计必须确保它们可以无缝地应用于任何ML模型,而不考虑其内部结构,因此仅从不透明模型的输入和输出创建可视化是一项复杂的任务。这就是为什么几乎所有属于这一类的可视化方法都与提供信息的特征相关技术一起工作。
从我们的文献分析中出现了几个趋势。首先,规则提取技术在事后可解释性的保护伞下,在与模型无关的贡献中盛行。如果我们考虑到第3.4节中预期的基于规则的学习作为可解释性包装器的广泛使用,以及无法进入模型本身所带来的复杂性,这可能是我们的直觉预期。类似地,另一大组贡献涉及特征相关性。最近,在处理DL模型时,这些技术引起了社区的广泛关注,这些混合方法利用了这类模型的特定方面,因此,损害了特征相关性方法对被解释的模型的独立性。最后,可视化技术提出了一种有趣的方法来可视化特征相关性技术的输出,以简化模型的解释任务。相比之下,对训练模型的其他方面的可视化技术(例如其结构、操作等)与要解释的特定模型紧密相连。
浅层ML涵盖了多种监督学习模型。在这些模型中,有严格可解释的(透明的)方法(例如KNN和决策树,已经在第3节中讨论过)。然而,其他的浅层ML模型依赖于更复杂的学习算法,这需要额外的解释层。鉴于它们在预测任务中的突出地位和显著的性能,本节集中介绍两个流行的浅ML模型(树集合和支持向量机),它们需要采用事后解释技术来解释它们的决策。
集成树可以说是目前使用的最准确的ML模型之一。它们的出现是提高单一决策树泛化能力的有效手段,而单决策树通常容易发生过拟合。为了规避这个问题,树的集合组合了不同的树,以获得一个聚合的预测/回归。虽然它可以有效地防止过拟合,但模型的组合使整体集成的解释比每个复合树学习者更复杂,迫使用户从事后解释技术中提取。对于集成树,文献中发现的技术可以通过简化和特征相关技术来解释;接下来我们将研究这些技术的最新进展。
首先,已经提出了许多贡献来简化集成树,同时保持部分准确性,增加了复杂性。来自[119]的作者提出了一个想法,即从集成模型标记的数据(理想情况下遵循真实数据分布)的一组随机样本中训练一个尽管不那么复杂的模型。另一种简化的方法是,在[118]中,作者创建了一个简化的集成树学习者(STEL)。同样,[122]提出了两种模型(简单和复杂)的使用,前者负责解释,后者通过期望最大化和KL散度进行预测。与在模型无关技术中看到的相反,通过模型简化来确定集成树中的可解释性的技术并不多。 由此推导出,要么所提出的技术足够好,要么模型无关技术确实已经涵盖了简化的范围。
根据简化过程,特征相关技术也被用于集成树领域。Breiman [286] 是第一个分析随机森林中变量重要性的人。 他的方法是基于在out-of-bag中随机排列某个变量时,测量森林的MDA(Mean Decrease Accuracy)或MIE(Mean Increase Error)随机森林中的MDA和MIE指标。根据这一贡献,[241]展示了在真实环境中,变量重要性的使用如何反映了由随机森林建模的复杂系统的潜在关系。最后,事后可解释性之间的横向技术 [240] 提出了一个框架,该框架提出了建议,如果采用,会将样本从一个类转换为另一个类。 这个想法试图以一种进一步描述性的方式来解开变量的重要性。 在文章中,作者展示了如何使用这些方法来提升推荐,以改进恶意在线广告,使其在支付率中排名更高。
与模型无关技术中显示的趋势相似,对于集成树,简化和特征相关性技术似乎是最常用的方案。然而,与之前观察到的相反,大多数论文都可以追溯到2017年,主要重点放在bagging集成上。当将注意力转移到其他集成策略时,最近注意到关于boosting和stacking分类器的可解释性很少。在后者中,值得强调的是,集成的复合学习者对给定数据产生特定预测的原因与它对集合输出贡献之间的联系。[242] 中提出的所谓的 Stacking With Auxiliary Features (SWAF) 方法指向了这个方向,通过利用和整合stacking集合中的解释来提高它们的泛化能力
常用的模型集成方法介绍:bagging、boosting、stacking
这种策略不仅依赖于复合学习者的输出,还依赖于输出的来源及其在整个集合中的共识。其他关于集成技术可解释性的有趣研究包括模型无关的方案,如DeepSHAP[226],stacking ensembles和多分类器系统以及深度学习模型;多个分类器的解释图的组合,以产生对它们所属集合的改进解释 [243]; 以及处理传统和梯度提升集成的最新见解 [287,288]。
另一个在文献中具有历史存在的浅层ML模型是SVM。SVM模型比集成树更复杂,具有更不透明的结构。已经提出了许多事后可解释性技术的实现,以将这些模型中内部数学描述的内容与不同作者考虑的对手头问题的解释联系起来。从技术上讲,SVM在高维或无限维空间中构造一个超平面或超平面集,可用于分类、回归或其他任务,如离群值检测。直观地说,与任何类中最近的训练数据点距离最大(称为函数边界)的超平面可以实现很好的分离,因为一般来说,距离越大,分类器的泛化误差越小。支持向量机由于其优秀的预测和泛化能力而成为最常用的ML模型之一。从第2节中所述的技术来看,应用于支持向量机的事后解释性涵盖了简化解释、局部解释、可视化和实例解释。
在简化解释中,进行了四类简化。它们之间的区别在于它们深入算法内部结构的深度。
首先,一些作者提出了仅从训练模型的支持向量中构建基于规则的模型的技术。这是[93]的方法,它提出了一种使用改进的序列覆盖算法直接从训练过的SVM的支持向量中提取规则的方法。在[57]中,同样的作者提出了折衷规则提取,仍然只考虑训练模型的支持向量。
在[94]中的工作生成了模糊规则,而不是经典的命题规则。在这里,作者认为长期的前因会降低可理解性,因此,模糊方法允许在语言上更容易理解的结果。可以以[98]为例,它提出将SVM的超平面和支持向量添加到负责创建规则的组件中。他的方法依赖于从支持向量和超平面之间的交点创建超矩形。
在第三种模型简化的方法中,另一组作者考虑添加实际的训练数据作为构建规则的组件。在[126,244,246]中,作者提出了一种对每类原型向量进行分组的聚类方法。通过将它们与支持向量相结合,它允许在输入空间中定义椭球体和超矩形。同样在[106]中,作者提出了所谓的超矩形规则提取,一种基于SVC(支持向量聚类)的算法,寻找每个类的原型向量,然后定义小的超矩形。
在[105]中,作者将规则提取问题表述为一个多约束优化,以创建一组不重叠的规则。每个规则都传递一个非空的超立方体,并与超平面共享一条边。在[245]中进行的一项类似的研究中,提取基因表达数据的规则,作者提出了一种作为多核SVM组件的新技术。该多核方法包括特征选择、预测建模和规则提取。最后,[134]的研究利用不断增长的SVC,根据线性规则,从提取的原型中定义Voronoi部分中的空间。
撇开规则提取不谈,文献中也考虑了一些其他的技术来有助于解释支持向量机。其中三种(可视化技术)在用于具体应用时被明确地用于解释SVM模型。
例如,[77]提出了一种创新的方法来可视化经过训练的SVM,从核矩阵中提取信息内容。他们的研究中心是支持向量回归模型。它们显示了算法可视化哪些输入变量实际上与相关的输出数据相关的能力。
在[68]中,一种可视化的方式将SVM的输出与热图相结合,以指导在药物发现的后期阶段对化合物的修饰。它们根据训练过的线性SVM的权重为原子分配颜色,这允许以一种更全面的方式来调试过程。在[116]的研究中,作者认为,许多关于解释支持向量机的研究只考虑了权重向量,而将边际留在一边。在他们的研究中,他们展示了这个边际是如何重要的,他们创建了一个明确地解释SVM边际的统计数据。作者展示了这个统计数据是如何具体到足以解释神经成像中显示的多变量模式的。
值得注意的是支持向量机和贝叶斯系统之间的交叉,后者被作为一种事后技术来解释SVM模型所做的决策。这就是[248]和[247]的情况,在这些研究中,支持向量机被解释为具有高斯过程先验的推理问题的MAP(最大后验)解决方案。该框架使调整超参数易于理解,并提供了预测类概率的能力,而不是经典的支持向量机的二值分类。在处理非CPD(条件正定)内核时,SVM模型的可解释性变得更加复杂,而由于缺少几何和理论理解,这些内核通常更难以解释。[102]的工作围绕着这个问题,对不定核支持向量机进行了几何解释,表明这些问题不能通过超平面边缘优化进行分类。相反,它们在伪欧几里得空间中最小化凸包(convex hulls)之间的距离。
应用于其他模型的事后技术与使用支持向量机的事后技术之间可能存在区别。在以往的模型中,广义上的模型简化是事后解释的突出方法。在支持向量机中,局部解释已经开始在这些命题中占据一些权重。然而,平均而言,基于简化的方法比局部解释要古老得多。
最后,处理SVM可解释性的回顾方法都没有超过2017年,这可能是由于DL模型在几乎所有学科中的逐步扩散。另一个看似合理的原因是,这些模型已经被理解了,所以很难对已经做过的工作进行改进。(SVM逐渐过气。。)
事后局部解释和特征相关性技术越来越成为解释DNN最常用的方法。本节回顾了对最常用的DL模型提出的可解释性研究,即多层神经网络、卷积神经网络(CNN)和循环神经网络(RNN)。
多层神经网络(称为多层感知器)因其推断变量间复杂关系的巨大能力而受到学术界的热烈欢迎。然而,正如引言中所述,负责在现实生产中部署这些模型的开发人员和工程师发现,它们的可解释性存在问题,这是不情愿(使用)的共同原因。这就是为什么神经网络一直被认为是黑箱模型。事实上,可解释性通常能够让模型具有实用价值,这迫使社区为多层神经网络生成多种可解释技术,包括模型简化方法、特征相关性估计、文本解释、局部解释和模型可视化。
目前已经为具有单个隐藏层的神经网络提出了几种模型简化技术,但对于具有多个隐藏层的神经网络,很少有工作提出。 这些少数作品之一是 DeepRED 算法 [257],它通过添加更多决策树和规则,扩展了 [259] 中提出的用于多层神经网络的规则提取(在神经元级别拆分)的分解方法。
其他一些工作使用模型简化作为一种事后可解释性的方法。例如,[56]提出了一种简单的提炼方法,称为可解释的模拟学习,通过梯度提升树来提取一个可解释的模型。在同样的方向上,[135]的作者提出了一个特征空间的分层划分,揭示了对不太可能的类别标签的迭代拒绝,直到关联被预测出来。此外,还有几项工作解决了将知识从一组模型中提炼为单个模型的问题[80,289,290]。
由于随着多层神经网络数量的增加,多层神经网络的简化更加复杂,用特征相关性方法解释这些模型越来越流行。[60]是该领域的代表性工作之一,它提出了一种将网络分类决策分解为其输入元素的贡献的方法。他们认为每个神经元都是可以被分解和扩展的对象,然后通过网络聚合和反向传播这些分解,从而产生深度泰勒分解。在同样的方向上,[110]的作者提出了DeepLIFT,这是一种在多层神经网络中计算重要性分数的方法。他们的方法将神经元和参考元的激活进行比较,并根据差异分配分数。
另一方面,一些工作试图验证当前可解释性方法的理论合理性。例如,[262]的作者提出了大多数为多层网络设计的特征相关性技术的一个基本问题。他们表明,这些技术应该满足的两个公理,即灵敏度和实现不变性,在实践中大多数违反了这些公理。根据这些公理,[262]的作者创建了集成梯度,一种新的特征相关性方法,证明满足上述公理。同样,[61]的作者分析了当前为深度神经网络设计的特征相关性解释方法的正确性,如DeConvNet、导向反向传播(Guided Back-prop)和LRP在简单线性神经网络上的应用。他们的分析表明,这些方法并不能产生理论上正确的解释,并提出了两种新的解释方法:PatternNet和PatternAttribution,这在简单神经网络和深度神经网络中理论上更合理。
太长了,换一篇更新