python最优分箱计算iv值_信贷风控小知识——(5)分箱与变量分析

风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。

最终,对进入模型的特征还要做单变量与多变量分析。

1、分箱简述

1.1分箱定义

(1)对于数值型变量,将数值范围分为几个有限的分段

(2)对于类别型变量,如果取值过多,将其合并为较少的几个分段

1.2分箱原因

(1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;

(2)对于类别型变量,当取值过多时,如果不分箱会发生变量膨胀,例如,对省份编码,独热编码会有31个变量,dummy也会有30个变量

1.3分箱要求

(1)取值较少的类别型变量不需要分箱

(2)分箱结果需要有序性

(3)分箱的平衡性:占比最小的箱数据不低于5%

(4)分箱的单调性:在要求严格的情况下,没想的坏样本率与箱呈单调关系;当非单调时,需要与前箱和后箱合并,选择前或后有两种方案:一种选择合并后卡方值小的方案;二是选择合并后更加均匀的方法,均匀程度的衡量方式:

箱的个数不能太多,一般5-7个;

(5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。

1.4分箱的优缺点

优点:

(1)比较稳定,原始变量在一定范围内波动,不会影响结果

(2)可以处理缺失值,将缺失值作为特殊值

(3)异常值处理,可以与其他值合并为一箱

(4)无需归一化,数值型变量变为类别型,没有尺度。

缺点:

(1)有一定信息的丢失

(2)需要编码,分箱是类别型,需要进行数值编码

2.分箱方法

分箱的初衷是将相似度高的样本分为一组。

无监督分箱考虑的是特征分箱相似度;

有监督分箱考虑的是特征业务含义相似度

2.1分箱方法分类有监督:卡方分箱、决策树分箱

优点:与目标变量结合,最大程度将目标变量的信息反应特征中

缺点:计算量大无监督:等频、等距、聚类

优点:计算简单

缺点:合理性得不到保证;不能充分利用目标变量的信息

2.2卡方分箱

在有监督的分箱中,卡方分箱是一种常用的方法,它以卡方分布和卡方值为基础,判断某个因素是否会影响目标变量。卡方检验的无效假设(原假设)H0是:观察频数与期望频数没有差别,即该因素不会影响目标变量。基于该假设计算卡方值,他表示观察值与理论值之间的偏离程度,根据卡方值与自由度确定获取得当前取值及更为极端取值的概率P,如果P值很小,则拒绝原假设。

卡方分箱是采用自下而上不断合并的方法完成分箱。在每一步合并的步骤中,依靠最小的卡方值寻找最优的合并项。

其核心思想是,如果两个区间可以被合并,那么这两个样本需要最接近的分布,进而意味着两个区间的卡方式最小的,具体步骤为:

(1)将数值变量A排序后分成区间较多的若干组;

(2)计算相邻区间合并后的卡方值;

(3)将卡方值最小的相邻区间合并;

(4)不断重复2,3步,直至终止条件。

终止条件:

(1)最小卡方值的P值超过0.1或者0.05;

(2)区间数目达到指定数目

开发模型时还需要满足两个条件:

(1)每箱的坏样本率单调,如果非单调性有一定的业务含义,可以保留U型或者到U型的坏样本分布

(2)每箱都有号样本和坏样本,为了后续计算WOE值

注意:

以上分箱是对于数值型变量。对于无序类别变量,比如省份,需要对变量进行数值编码,常用坏样本率编码后排序、分箱;对于有序类别型变量,比如学历,可以排序后分箱。

卡方分箱优缺点:

优点:解释性强,以卡方检验为原理,具有很强的统计意义,可以解决多分类场景(非违约,轻度违约,重度违约)的分箱;

缺点:计算量大

2.3Best-KS分箱

KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距。

KS值越大,表示该变量越能将正、负客户区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。

注意:这里的KS值是变量的KS值,不是模型的KS值。

KS的计算方法:

(1)计算每个评分区间的好坏账户数

(2)计算各个评分区间的累积好账户占总好账户数的比率(good%)和累计坏账户数占总坏账户数的比率(bad%)

(3)计算评分区间累计坏账户占比与累计好账户占比差的绝对值(累计good%-乐基bad%),然后,对这些绝对值取最大值即得到KS值。

Best-KS分箱

过程步骤:

(1)将特征值进行从小到大排序

(2)计算出KS最大的那个值,记为切点,记为D。然后把数据切分成两部分。

(3)重复2步骤,进行递归,D左右数据进一步分割。直到KS的箱体数达到我们的预设阈值即可

Best-KS 分箱特点:

连续型变量:分箱后的KS值<=分箱前的KS值

分箱过程中,决定分箱后的KS值是某个切点,而不是多个切点的共同作用。这个切点的位置是原始KS值得最大值的位置。

3.特征信息值IV

IV可以衡量变量的重要性,进而筛选重要的特征。

IV计算公式:

IV值是非负的;

WOE反应的是每个分箱中好坏比相对全体样本好坏比的超出

IV反应的是这种超出的显著性

注意:

(1)IV值越大,特征越重要,但不宜过大,否则会有过拟合的风险

(2)IV计算同样要求每箱要有好坏样本

(3)不仅与特征重要程度有关,同时与分析方式有关,分箱越细,IV值越大。

5.单变量分析(Single Factor Analysis)

5.1IV重要性

IV>=0.2,有较高的重要性

IV介于0.1-0.2,有较弱的重要性

IV<0.1,几乎没有重要性

5.2稳定性

通常使用PSI指标

5.3覆盖率

筛除掉覆盖率较低的样本

6.多变量分析(Multi Factor Analysis)

完成单变量分析后,需要对变量的整体性进行把控,进一步缩减变量的规模,形成全局最优的变量体系。

6.1两两线性相关

较多的相关性会造成信息冗余,同时增加模型开发,部署与维护的负担。通常使用相关性矩阵检验相关性

6.2多重共线性

多重共线性是指某一变量,与其他变量的线性组合存在较强的线性相关性。多重共线性通常使用方差膨胀因子(VIF)衡量,其计算公式为

定系数。一般当VIF>10时,表示存在多重共线性。

-------------------------------------结束----------------------------------------------

你可能感兴趣的:(python最优分箱计算iv值)