搭建金融信贷风控中的机器学习模型-(4)特征分箱与编码

        风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。最终,对进入模型的特征还要做单变量与多变量分析。

1.分箱简述

分箱的定义:1)对于数值型变量,将取值范围分为几个有限的分段,例如将收入分为<5k,510k,1020k,>20k等;2)对于类别型变量,如果取值很多,将 其合并为较少的几个分段。
分箱原因:1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;2)对于类别型变量,当取值很多时,如果不分箱会发生变量膨胀,例如,对31个省份编码,独热编码会有31个变量,dummy编码也会有30个变量。
分箱要求:1)取值较少的类别型变量不需要分箱;2)分箱结果需要有序性;3)分箱的平衡性;占比最小的箱数据不低于5%;4)分箱的单调性:在要求较严格的情况下,每箱的坏样本率与箱呈单调关系;当非单调时,需要与前箱或后箱合并,选择前或后有两种方案:一是选择合并后卡方值小的方案;二是选择合并后更加均匀的方案,均匀程度的衡量方式为:,其中为每箱样本占比,值越小越均匀5)分箱的个数,通常分箱后,箱的个数不能太多,一般5~7个;5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。
分箱的优缺点优点:1)比较稳定,原始变量在一定范围内波动,不会影响结果;2)可以处理缺失值,将缺失值作为特殊取值;3)异常值处理,可以与其他取值合并为一箱;4)无需归一化,数值型变量变为类别型,没有尺度的差异。缺点:1)有一定信息的丢失;2)需要编码,分箱后是类别型,需要进行数值编码。

2.分箱方法

分箱的初衷将相似度高的样本分为一组。无监督分箱考虑的是特征分布相似度;有监督分箱考虑的是特征业务含义相似度。

  • 有监督:卡方分箱,决策树分箱
    优点:与目标变量结合,最大程度将目标变量的信息反映在特征中
    缺点:计算量大
  • 无监督:等频、等距、聚类
    优点:计算简单
    缺点:合理性得不到保证;不能充分利用目标变量的信息
    卡方分箱
            在有监督的分箱中,卡方分箱是一种常用的方法,它以卡方分布和卡方值为基础,判断某个因素是否会影响目标变量。卡方检验的无效假设H0是:观察频数与期望频数没有差别,即该因素不会影响目标变量。基于该假设计算卡方值,它表示观察值与理论值之间的偏离程度,根据卡方值与自由度确定获得当前取值及更极端取值的概率P,如果P值很小,则拒绝原假设。
    卡方值计算:
    为因素取值个数
    为第组类别的观测频数
    为第组类别的理论频数
            卡方分箱是采用自下向上不断合并的方法完成分箱。在每一步合并的步骤中,依靠最小的卡方值寻找最优的合并项。其核心思想是,如果两个区间可以被合并,那么这两个坏样本需要最接近的分布,进而意味着两个区间的卡方值是最小的,具体步骤为:
    (1)将数值变量A排序后分成区间较多的若干组;
    (2)计算相邻区间合并后的卡方值;
    (3)将卡方值最小的相邻两区间合并;
    (4)不断重复2,3步,直至终止条件。终止条件:1)最小卡方值的p值超过0.1或者0.05;2)区间数达到指定数目。在开发评分卡模型时,还需满足以下两个条件:1)每箱的坏样本率单调,如果非单调性有一定的业务含义,可以保留U型或倒U型的坏样本率分布;2)每箱都有好样本和坏样本,为了后续计算WOE值。
    以上的分箱是对于数值型变量。对于无序类别型变量,比如省份,需要对变量进行数值编码,常用坏样本率编码编码后排序、分箱;对于有序类别型变量,比如学历,可以排序后分箱。
    卡方分箱优缺点:优点:1)解释性强,以卡方检验为原理,具有很强的统计意义,可以解决多分类场景{非违约,轻度违约,重度违约}的分箱;缺点:计算量大。

3.WOE编码

        编码是一种数值代替非数值的操作,目的是为了让模型对其进行数学运算。
第箱WOE值的计算公式:其中。表示第箱好样本数,是全部好样本数。
优缺点:优点:1)提高模型性能,具有业务意义,比如大于0时,表示该箱的好坏比大于整体样本好坏比;2)统一变量的尺度,一般介于-4~4之间;3)分层抽样后WOE不变。缺点:1)对于多类别变量无效。

4.特征信息值IV

        IV可以衡量变量的重要性,进而筛选重要的特征。
IV计算公式:
IV值是非负的;woe反映的是每箱中好坏比相对全体样本好坏比的超出,而IV反映的是这种超出的显著性。需要注意:1)IV越大,特征越重要,但不宜过大,否则有过拟合的风险;2)IV计算同样要求每箱要有好坏样本;3)不仅与特征重要度有关,同时与分箱方式有关,分箱越细,IV越大。

5.单变量分析(Single Factor Analysis)

1.特征重要性
IV>=0.2,有较高重要性
IV介于0.1~0.2,有较弱重要性
IV<0.1,几乎无重要性
2.稳定性
通常使用PSI指标
3.覆盖率
筛除掉覆盖率较低的样本

6.多变量分析(Multi Factor Analysis)

完成单变量分析后,需要对变量的整体性做把控,进一步缩减变量规模,形成全局更优的变量体系。

  • 两两线性相关性,较多的相关性会造成信息冗余,同时增加模型开发、部署与维护的负担。通常使用相关性矩阵检验相关性
  • 多重共线性。多重共线性是指某一变量,与其他变量的线性组合存在较强的线性相关性。多重共线性通常使用方差膨胀因子(VIF)衡量,其计算公式为:
    ,其中是对的线性回归的决定系数。一般当VIF>10时,表示存在多重共线性。

(如有不同见解,望不吝指教!!)

你可能感兴趣的:(搭建金融信贷风控中的机器学习模型-(4)特征分箱与编码)