Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一

Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第1张图片
2018年10月AAAI上的一篇论文,该作者在2016年发表了一篇LIME , 是一种局部可解释模型,可解释任何分类模型。本篇Anchors 是LIME的延续,指出了LIME中线性模型无法确定覆盖度(后文详细解释)的缺点,并设计Anchors,以规则集合描述模型的局部行为,使得用户能根据这些充分条件来推测模型的行为,预测模型的分类结果。
接下来,以翻译加总结的方式记述下自己对这篇论文的理解。

摘要

本文(下文以文章作者角度)介绍了一种新颖的模型无关的解释复杂机器学习模型的系统,该系统使用高精度的规则进行解释,我们称它为Anchors. Anchors使用局部的充分条件来解释模型行为。首先,我们设计了算法来有效地生成这样的规则;然后我们设计了多组实验,针对各种复杂模型和不同领域,来验证Anchors的可扩展性;最后,我们通过user study来说明,Anchors能允许用户预测模型的行为,并且用户的预测精确度比通过其他解释模型或无解释模型的情况要高。

Introduction

复杂的机器学习模型确实带来了高准确率,但是也使得模型对于用户来说是一个黑盒,而用户对理解模型行为的需求越来越关注,使得可解释的机器学习开始盛行。可解释的机器学习分为全局可解释的模型和局部可解释的模型。全局可解释的模型一般是特别设计的,局部可解释模型一般是与模型无关的。
首先,对于“可解释”,要给一个定义,“可解释”的核心是:用户能足够理解模型的行为,且能精确地预测模型对于样本的预测结果。
大多数的局部可解释模型,都是使用一个线性模型去拟合模型的局部行为,这样线性模型能给出样本中不同特征的相对重要性。但是,由于线性模型拟合的是局部的结果,对于一个未知样本,不能确定线性模型的结果是否适用于该样本(即不确定该样本是否在局部范围内),这也就是上文提到的“覆盖度”,线性模型的覆盖度是不确定的。这样就会导致低用户精确度(用户预测模型行为的精确度)。
接着,作者以LIME为例,阐述了线性模型存在的问题。
Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第2张图片
如上图,LIME分别对两句话的情感判断进行分析,第一句中“not"对于原始模型给出“positive"的判断起正向贡献,而第二句not则是负向贡献,LIME对这两句的分析都是准确的,但是用户无法根据这些分析预测模型之后的行为,因为用户无法知道not具体在何时是使模型得到positive的结果。
于是,本文提出新的模型无关的可解释模型,基于if-then的规则,我们称它为Anchors. Anchors给出的解释是模型在局部行为的充分条件,也就是说,若模型满足该条件,则模型一定(大概率)会给出某种分类。
接下来,我们在不同的数据集(表格,文本,图片等)及不同的模型(情感分类,词性分类,文本生成)上做了实验来验证Anchors, 并进行了user study来说明Anchors对用户理解模型行为的贡献。

Anchors as High-Precision Explanations Anchors在各个数据集以及模型上的解释示例

定义原始模型为f: X->Y, 样本 x ∈ X x \in X xX. 局部模型无关的可解释系统的目标是向用户解释f(x)的行为, 即向用户解释原始模型为什么会对样本x做出f(x)的预测结果。局部可解释模型的思想为:当原始模型很复杂以至于难以给出简洁的解释时,聚焦于单个样本的预测来做出解释是可行的。大多数模型无关的解释方法都是通过对样本x进行扰动变换得到扰动分布 D x D_x Dx (后文简写为D),我们在LIME中强调,D的表示一定要是用户可理解的。
定义A为一组规则,若样本x满足A中所有规则,则A(x)返回1. 如图2a, “This movie is not bad” 这一句话为一个样本x, 原始模型为句子情感分析模型,则f(x)=positive, A={“not”, “bad”}, 故A(x)=1. 令D(.|A)表示满足规则A的样本的分布(如图2a,左边下面方框的句子,均含有“not”,“bad”)。 于是,我们定义A 为Anchor,当A(x)=1,且A为预测f(x)的充分条件(即,样本满足A中所有条件时,用户据此判断原始模型对样本的预测结果大多数条件下是正确的)。形式上,定义A为Anchor, 有(公式1)
E D ( z ∣ A ) [ 1 f ( x ) = f ( z ) ] ≥ τ , A ( x ) = 1. E_{D(z|A)} [1_{f(x)=f(z)}]\geq \tau, A(x)=1. ED(zA)[1f(x)=f(z)]τ,A(x)=1.
Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第3张图片
图2(b)为两个聚焦局部复杂模型区域的例子,解释单个样本(由+和-标识)。 LIME为图中的虚直线表示,学习D分布下的线性表示, 一条直线,并不能给出其具体适用的范围。而右边所示的虚方框,则给定了一个局部范围。
我们暂且不讨论Anchors是如何计算得到的,先列举具体的实例来证明Anchors的可用性和可扩展性。

文本分类

图1中的句子情感分类模型是LSTM,其使用的特征是不可解释的(embedding),于是我们使用的可解释的表示就是样本中出现的单词。扰动样本就是将某些单词隐藏,并用其他的能在embedding空间得到相同POS tag的单词替换(生成的句子句意连贯且长度相同)。 图2(a)中间展示了扰动空间D,(上一节已经描述过),底部为D(z|A).

结构化预测

当原始模型的输出是一个结构时,Anchors特别适合用于结构化预测模型:虽然全局的行为太复杂,很难解释,但是局部行为通常能用简单的规则来表示。
在表格1中,我们对经典的词性标注器的行为进行解释,该标注器对单词"play"的词性进行标注, 我们根据play及其上下文进行解释。由表1 Anchors对于模型的解释可知,模型的确是通过合理的英语语法模式来进行词性判断的。
Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第4张图片
在表格2中,我们使用Anchors对多层RNN的编码解码翻译系统进行解释,该系统基于英语-葡萄牙语 的平行语料库进行训练。加粗的单词表示Anchors, 样本满足Anchors的规则(包含该单词)时,对应葡萄牙语的翻译中将会有红色部分标识的单词。比如,第一行表示,当英文句子中同时含有"This",“is”,“question"时,葡萄牙语中将包含单词"Esta”. 在葡萄牙语中,对单词this 的翻译取决于单词的词性(“esta” 表示阴性,“este"表示阳性),或者如果this指代的物体没有出现在句子中时,它翻译成"isso”。由此,我们看到Anchors捕获的模型的行为:anchors总是包含"this is", 而原始翻译系统对this也是根据词性进行翻译的(question为阴性,problem为阳性)。
Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第5张图片

表格式分类

将数据按照表格的形式分类是目前机器学习比较流行的一种应用。我们使用一个验证集作为D,按照得到的Anchors重新划分表格中的样本得到D(z|A), 原始模型为400棵树组成的gbdt模型,数据集为表格3所示的三个数据集的平衡版本。Anchors对模型的行为进行了很好的解释。 如第一个数据集中,婚姻状况对预测一个人的年收入大于50k 的条件中多次出现。第二行rcdv数据为刑满释放人员再犯的预测,通过Anchors对它的分析,发现如果该模型用于是否通过保释的话则有不公平的地方,因为种族和性别特征的对原始模型影响太大了。而第三行,对于lending club网站上的贷款是否会成为bad loan进行预测,Anchor分析发现,FICO分数对原始模型的影响是充分的,但是贷款金额也在考虑范围内。根据表3中的规则,我们发现Anchors的规则是不够全面的,即Anchors只能解释模型在局部样本的行为,而不能包含所有样本。 Anchors要给出全局范围的解释,或者是边界情况的预测还需要后续研究。
Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第6张图片

图片分类

当解释图片的标签预测时,我们延续LIME的做法,将图片划分为superpixels, 并通过某些superpixels的存在与否来得到解释的表示。与LIME不同的是,我们不是遮掩某些superpixels, 而是对图片中Anchors部分固定,然后将其他图片叠加在图片的其他超像素(superpixels)部分。 图3b中 ,我们解释了InceptionV3模型的预测。尽管D在此处很难定义,但是图中显示anchor还是显示了模型关注的狗的几个部位来判定它的品种。由图3c为给定anchors后得到的D(z|A)的几种示例,这几张图片,原始模型都有很大概率预测为猎犬,但是我们发现,模型的判断和人的并不一样,人对于一只狗是否属于猎犬所关注的它是否在水下,是否在填上,它的腿是否为人的腿等特征,并不是模型做出判断的重要特征。
Anchors:High-Precision Model-Agnostic Explanations——可解释机器学习论文理解一_第7张图片

视觉问答(VQA)

最后一个例子,是将anchors应用到视觉问答中。

你可能感兴趣的:(论文学习)