算法的可解释性

    我们知道Responsible AI 主要分为两个方面,Interpretability 和 Fairness 。Interpretabiliy指的是算法具有一定的可解释性,Fairness指的是算法具有一定的公平性。这两个问题在笔者刚工作的时候还是比较热门的,虽然这两年它们已经渐渐不流行了,很少用了,但是笔者还是记录下之前的使用经验和心得吧。

    我们知道算法中有一个准确率和可解性之间的trade off, 准确率越高的算法,解释性越差;准确率越低的算法,解释性越好。但是随着很多黑箱解释方法的诞生,这个trade off几乎被打破了。在现实业务中,可以做到算法准确率高的同时对其解释性也好。

    首先介绍下白箱和黑箱,白箱和黑箱类似于软件测试领域里的白盒测试和黑盒测试。白盒测试即知道每一行的code含义,对其精确测试;黑盒测试将code当一个黑盒子,不知道里面的精确含义,使用案例对其测试。算法中的白箱是指自带可解性的算法,该类算法自身的输出过程就能让人理解,例如回归算法;而黑箱就是指不自带可解释性的算法,该类算法的输出过程复杂抽象,不能让人理解,例如神经网络算法。而其中黑箱算法的可解释性又可以分为两种,一种是全局的可解释性,针对的是黑箱算法整体的可解释性;另一种是局部的可解释性,针对每一个局部样本的可解释性。本文主要介绍下黑箱算法中的局部可解释性的一些方法。


1. Lime

Lime应该是第一个见到的方法,它的基本思想是说:在一个样本的邻域内,使用一个白盒算法去逼近黑盒算法,使得在该邻域范围内,使用该白盒算法可以解释该黑盒算法。如果非要用数学表达式表示的话(虽然被公司教导解释任何东西的时候都不能有数学表达式),可以表示成如下的形式:

Lime在实际使用中表现良好,易于操作和解释,是一个不错的方法。但有些时候邻域中寻找到的白盒算法不足以替代黑盒算法,会遗漏掉很多变量,导致解释不对。

2. Shaply  Value

    Shaply value 来自博弈论的一个值。想象这样的一个场景,一个球队赢了球赢得了若干奖金,那么教练该如何分配奖金给这支球队里所有的队员呢?有人会说,平分。但这不是最公平的方法,因为每个球员的水平能力不一样,那些水平高、能力强的球员应该分配到的奖金应该多一些,那些水平弱的球员分配到的奖金应该少一些。那么为了达到公平,该如何分配奖金呢?

    此时,Shaply value就诞生了:针对每一个球员,如果把这个球员从球队里踢出去那么整支球队可以获得多少奖金,每一个球员的边际收益就可以算出,那么每个球员的重要性就可以算出来了,就可以据此分配相应奖金了。如果应用在解释黑盒算法中,剔除某个变量黑盒算法预测的值就会变化,那么该变量的重要性就可以得出了,就可以解释每个变量在预测中的权重了。Shaply Value在实际使用中最常用的方法,易于操作,解释性较为可靠,推荐。

3. Counterfactual  Explanation

Counterfactual Explanation 可以称作为反事实解释。什么意思呢?如果一个人去银行贷款被拒绝了,那么这个人就会想,我该怎样才能让银行贷款给我呢?银行也是很想贷款给贷款人的,毕竟大家都是来赚钱的,那么银行就会通过一些计算方法,告诉贷款人:如果你的收入再增加5000元,那么下一次审批贷款的话绝对能过。皆大欢喜,嗯,不是吗?那么其中的计算方法,就包括反事实解释。

反事实解释的数学形式如下:

其中x是样本,x'是反事实样本

反事实解释在实际业务中用的比较少,尤其笔者所在的芯片制造业公司,主要解释的变量都是电流、电压之类的变量,但不能说完全没用,留着用到的时候可以拿来直接用。这里可以分享一个有意思的网站 what if tool :  https://pair-code.github.io/what-if-tool/

4. Layer-wise Relevance Propagation (LRP)

LPR是专门为神经网络系列创造出来的一种方法,包括全连接网络以及CNN系列网络。它的思想很简单,就是在反向传播的时候计算每一个神经元的权重,最后递推到原图像中,形成heatmap。可参考如下的图片。

算法的可解释性_第1张图片

一般在制造业的图像项目中,没什么可解释性的问题,只要跟肉眼看到的一致,算法就是准确的,没什么人在乎可解释性问题,但是我想在医疗领域中的图像项目可能需要较强的可解释,因此还是拿出来稍微介绍下。


好了,以上介绍了4种黑盒的局部可解释性的方法,因为篇幅和精力有限,还有很多很有意思的方法笔者在这里就不做一一介绍了,有兴趣的读者直接找我交谈。欢迎阅读、评论、点赞和转发。

关注我,带你走进数据算法的世界。

  • 微信公众号 数据算法小屋

  • CSDN  https://blog.csdn.net/TommyLi_YanLi  

  • 知乎 https://www.zhihu.com/people/74-25-40-76-26

  • 作者邮箱:[email protected]

你可能感兴趣的:(大数据,算法)