PSI的计算

PSI检验变量的稳定性,当一个变量的psi值大于0.0001时,变量不稳定。一个变量,将它的取值按照分位数来分组一下,每一组中测试模型的客户数占比减去训练模型中的客户数占比再乘以这两者相除的对数,就是这一组的稳定性系数psi,然后变量的psi系数就是把这个变量的所有组的psi相加总起来。

计算某个变量的PSI,上面这段话中测试模型和训练模型替换成两个月份即可。

例如,下表是某个变量,以2018年10月为基准,每个月(以2018年9月为例)都和2018年10月去做一个下面表格的运算。

 组号 总个数 2018年10月各组人数 2018年10月各组人数占比 2018年9月各组人数 2018年9月各组人数占比 占比差值 psi
1 603 217 0.7233 386 0.5514 0.1719 0.0466
2 103 34 0.1133 69 0.0986 0.0148 0.0021
3 63 11 0.0367 52 0.0743 -0.0376 0.0266
4 48 6 0.0200 42 0.0600 -0.0400 0.0439
5 183 32 0.1067 151 0.2157 -0.1090 0.0768
总计 1000 300 1.0000 700 1.0000 - 0.1960

第一个0.0466的计算方法:

= (0.7233-0.5514)*LN(0.7233/0.5514)

下面几个数值的计算方法是相同的,最后的0.1960是把上面的几个加起来。

可以把每个月份依次和2018年10月去对比求一个PSI值出来。

 

如果PSI卡的值是0.1,只要有一个月对比得到的PSI值大于0.1,就要把这个变量踢掉。比如,从上表的结果来看,这个变量就应该被踢掉了。

你可能感兴趣的:(模型指标)