可解释机器学习 Task06 -LIME可解释性分析

可解释机器学习 Task06 -LIME可解释性分析

  • 一、LIME简介
  • 二、表格数据 LIME可解释性分析(以葡萄酒质量二分类数据集为例)
  • 三、图像数据 LIME可解释性分析
  • 四、文本数据 LIME可解释性分析
  • 五、选取有代表性的样本
  • 六、LIME的优缺点
    • 1.优点
    • 2.缺点
  • 七、LIME改进——自适应距离(OptiLIME)

一、LIME简介

  • 原始模型的高维边界是十分复杂的,类似黑箱的
  • 我们选取一个待测样本,从该样本的邻域生成一些邻域的样本
  • 与待测样本近的样本权重高,与待测样本远的样本权重低
  • 把这些权重高的样本输入到原始模型中,得到原始模型的预测结果
  • 选取一个可解释性非常好的模型(下图为线性回归),在局部拟合出原模型
  • 通过这个可解释性非常好的模型来分析出原模型的哪些特征重要,哪些特征不重要

可解释机器学习 Task06 -LIME可解释性分析_第1张图片

二、表格数据 LIME可解释性分析(以葡萄酒质量二分类数据集为例)

  • 先选取一条数据(一杯葡萄酒的数据)
  • 对于其每一个特征进行微小扰动
  • 扰动影响越大的样本,距离原始样本的距离较远,权重较小
  • 扰动影响越小的样本,距离原始样本的距离较近,权重较大
  • 一个样本可以生成好多扰动样本,将扰动样本输入到模型中生成结果
  • 将结果作为标注,扰动样本作为特征,训练一个可解释的模型

可解释机器学习 Task06 -LIME可解释性分析_第2张图片

三、图像数据 LIME可解释性分析

扰动方式:需要自己指定扰动的方法

  • 本例采用超像素分割算法:将原图聚类分割成N个图块,每一个图块都是1/0(0:不存在,灰色色块;1:存在,原始色块),则这个长度为N的向量为可解释的特征
  • 所以下图的图片为特征,后面0.85、0.00001、0.52为标签
  • 最后的Explanation表明:树蛙的脸部对于模型预测图片为树蛙有较大重要性

可解释机器学习 Task06 -LIME可解释性分析_第3张图片

  • 表格、图片数据小结

可解释机器学习 Task06 -LIME可解释性分析_第4张图片

四、文本数据 LIME可解释性分析

  • 词袋模型:给定每一个词对应的索引,然后把一句话转化为索引对应的向量 ,作为可解释特征来训练模型

可解释机器学习 Task06 -LIME可解释性分析_第5张图片

五、选取有代表性的样本

  • 下图中每一行代表一个样本,每一列代表一个特征
  • 可以观察到样本的特征中f2特征出现了最多次(最重要)
  • 我们选择第二行和第五行样本便可以覆盖掉4/5的特征

可解释机器学习 Task06 -LIME可解释性分析_第6张图片

六、LIME的优缺点

1.优点

  • 兼容任意一种机器学习算法
  • 特征重要性:解释、理解、信赖、改进(特征工程)
  • What-if 场景:如果每个月多挣500元,额度是多少
  • 可解释单个样本预测结果、选取代表性样本
  • 可人工设计、构造可解释特征(如前文的超像素分割)

2.缺点

  • 人工设计、构造的“可解释特征”,不一定科学(如何构造科学的可解释特征是LIME最难的点,也是最容易出彩的点)
  • “局部线性”可能无法拟合原模型
  • 不同样本,如何计算邻域样本权重(对于“远”、“近”的定义)
  • 每个待测样本都需训练对应可解释模型,耗时长

七、LIME改进——自适应距离(OptiLIME)

可解释机器学习 Task06 -LIME可解释性分析_第7张图片

你可能感兴趣的:(人工智能,python)