permutation importance

哪些特征对预测的影响最大? 这或许是对一个模型提出的最基本问题之一。
这个概念就是所谓得到特征重要性。
有多种方法来衡量特征重要性。这篇文章Machine Learning Explainability Home Page采用了permutation importance(在此简称PI)方法。

PI思路

常规思路,我们或许很容易想到,在训练模型的时候很容易得到特征得到重要性,比如树模型直接可以输出特征重要性,但是这个特征对整体的预测效果有多大影响啊?我们可以这样做,首先让全部特征参与训练然后预测得出score1(mse,rmse等),然后依次去掉一个特征去训练模型(有多少个特征就会训练多少个模型),分别预测会得到对应的缺失特征的得分score2,score2-score1就代表一个特征的预测能力。然而,有100个特征岂不是要训练100个模型。

PI思想

  • 用上全部特征,训练一个模型。
  • 验证集预测得到得分。
  • 验证集的一个特征列的值进行随机打乱,预测得到得分。
  • 将上述得分做差即可得到特征x1对预测的影响。
  • 依次将每一列特征按上述方法做,得到每二个特征对预测的影响。

具体例子以及说明参见:Machine Learning Explainability Home Page

你可能感兴趣的:(比赛,特征重要性,permutation)