该案例使用肺癌数据集,使用随机森林分类器训练模型,并预测测试集标签。最后使用SHAP解释器解释模型预测的依据,如哪些特征对预测影响较大,此外也可以添加其他指标评估模型质量。
假设我们有一个分类模型,输入有3个特征A,B,C,输出一个标签0或1。
现在有一个样本,其特征值为:
- A = 1
- B = 0
- C = 1
模型给出的预测标签是1
1、SHAP解释器会计算:
2、它通过对比不同子集中模型输出的差异,来计算每个特征的边际效应。
3、然后根据shapley值公式,得到每个特征A,B,C对预测结果的独立贡献,也就是它们的SHAP值。
4、通过这样的分析,我们就可以看到每个特征对预测结果的影响程度,这就是SHAP解释器工作的基本套路。
SHAP解释器计算每个特征的边际效应是基于下面这个思路:
对于样本X上的模型预测f(X),它有m个特征。
对于每个特征xi, SHAP会考虑该特征在所有可能的子集S中的取值:
- 当xi在S中时,模型输出为f(X|S)
- 当xi不在S中时,模型输出为f(X|-xi)
那么这个特征xi在子集S中的边际效应定义为: 边际效应 = f(X|S) - f(X|-xi)
也就是说,这个特征加入或去除子集S时,模型输出的变化。
5、SHAP会计算样本X上每个可能的子集S,然后对每个特征xi统计他在所有子集S中的边际效应。
6、最后根据shapley值的定义,通过加权平均计算出特征xi对整体模型输出f(X)的贡献大小。
这个贡献量就是我们常说的这个特征的SHAP值,就代表了它对预测结果的独立影响程度。
所以通过不断采样不同子集,SHAP可以详细解剖每个特征的边际影响,从而给出它们对结果的解释。
该案例加载法律案件数据,训练RF分类模型预测胜诉可能性,并使用LIME解释单例预测依据,可以辅助法律工作。
LIME(Local Interpretable Model-agnostic Explanations) 的工作原理:
所以LIME可以解释模型预测一个单独样本的原因,指出影响程度最大的特征,这对法律工作很有意义。它的优点是模型无关,仍适用于黑箱模型,这就是LIME受到欢迎的原因。
LIME训练本地解释模型的过程包括以下步骤:
通过这一训练过程,LIME得到的线性模型仅在原始样本附近有效,但能反映原始模型在这里的线性表现,从而提供本地解释。
假设我们有一个文本分类模型,用于判断新闻文章是否为政治类。
给定一个测试样本:
文本内容: “政府宣布将提高税率。”
模型预测: 政治类
LIME会做如下工作:
询问原模型这些实例的预测结果。
求每个实例与原样本的距离,做为新特征。
用这些新数据训练线性模型fitting原模型表现。
得到的线性模型公式为:
y = 1.0*“政府” + 0.8*“税率” + 0.1*“将提高”
所以关键词为"政府"和"税率",它们最大影响预测结果。
通过这个例子可以清楚看到LIME是如何在本地近似原始模型,并解释单个预测结果的。它利用了简单且易解释的线性模型。
假设我们有一个模型来判断是否是正面评论,输入是一个短评文本:
评论文本: “电影很好看,主演演技饱满”
模型预测: 正面评论
LIME会做以下工作:
通过对原始样本进行简单删除操作,LIME找到主要影响项"电影很好看",表明它是模型判断的关键依据。
————————————————
原文链接:https://blog.csdn.net/weixin_71458119/article/details/132460672