风控建模常用逻辑回归模型，模型的特征必须是数值型特征，因此需要对类别型特征进行编码；此外，为了获得模型的稳定性，建模时需要对数值型特征进行分箱处理。最终，对进入模型的特征还要做单变量与多变量分析。

1.分箱简述

分箱的定义：1）对于数值型变量，将取值范围分为几个有限的分段，例如将收入分为<5k,5_10k,1020k,>20k等；2）对于类别型变量，如果取值很多，将其合并为较少的几个分段。
分箱原因：1）评分结果需要稳定性，当样本数值型变量发生较小波动，评分结果不应发生改变；2）对于类别型变量，当取值很多时，如果不分箱会发生变量膨胀，例如，对31个省份编码，独热编码会有31个变量，dummy编码也会有30个变量。
分箱要求：1）取值较少的类别型变量不需要分箱；2）分箱结果需要有序性；3）分箱的平衡性；占比最小的箱数据不低于5%；4）分箱的单调性：在要求较严格的情况下，每箱的坏样本率与箱呈单调关系；当非单调时，需要与前箱或后箱合并，选择前或后有两种方案：一是选择合并后卡方值小的方案；二是选择合并后更加均匀的方案，均匀程度的衡量方式为：,其中为每箱样本占比，值越小越均匀5）分箱的个数，通常分箱后，箱的个数不能太多，一般5~7个;5)特殊值作为一箱，但不参与单调性比较，若特殊值的分箱样本占比低于5%，则与第一箱或最后一箱合并。
分箱的优缺点：优点：1）比较稳定，原始变量在一定范围内波动，不会影响结果；2）可以处理缺失值，将缺失值作为特殊取值；3）异常值处理，可以与其他取值合并为一箱；4）无需归一化，数值型变量变为类别型，没有尺度的差异。缺点：1）有一定信息的丢失；2）需要编码，分箱后是类别型，需要进行数值编码。

2.分箱方法

分箱的初衷将相似度高的样本分为一组。无监督分箱考虑的是特征分布相似度；有监督分箱考虑的是特征业务含义相似度。

有监督：卡方分箱，决策树分箱
优点：与目标变量结合，最大程度将目标变量的信息反映在特征中
缺点：计算量大
无监督：等频、等距、聚类
优点：计算简单
缺点：合理性得不到保证；不能充分利用目标变量的信息
卡方分箱
在有监督的分箱中，卡方分箱是一种常用的方法，它以卡方分布和卡方值为基础，判断某个因素是否会影响目标变量。卡方检验的无效假设H0是：观察频数与期望频数没有差别，即该因素不会影响目标变量。基于该假设计算卡方值，它表示观察值与理论值之间的偏离程度，根据卡方值与自由度确定获得当前取值及更极端取值的概率P，如果P值很小，则拒绝原假设。
卡方值计算:
为因素取值个数
为第组类别的观测频数
为第组类别的理论频数
卡方分箱是采用自下向上不断合并的方法完成分箱。在每一步合并的步骤中，依靠最小的卡方值寻找最优的合并项。其核心思想是，如果两个区间可以被合并，那么这两个坏样本需要最接近的分布，进而意味着两个区间的卡方值是最小的，具体步骤为：
（1）将数值变量A排序后分成区间较多的若干组；
（2）计算相邻区间合并后的卡方值；
（3）将卡方值最小的相邻两区间合并；
（4）不断重复2,3步，直至终止条件。终止条件：1）最小卡方值的p值超过0.1或者0.05；2）区间数达到指定数目。在开发评分卡模型时，还需满足以下两个条件：1）每箱的坏样本率单调，如果非单调性有一定的业务含义，可以保留U型或倒U型的坏样本率分布；2）每箱都有好样本和坏样本，为了后续计算WOE值。
以上的分箱是对于数值型变量。对于无序类别型变量，比如省份，需要对变量进行数值编码，常用坏样本率编码编码后排序、分箱；对于有序类别型变量，比如学历，可以排序后分箱。
卡方分箱优缺点：优点：1）解释性强，以卡方检验为原理，具有很强的统计意义，可以解决多分类场景{非违约，轻度违约，重度违约}的分箱；缺点：计算量大。

3.WOE编码

编码是一种数值代替非数值的操作，目的是为了让模型对其进行数学运算。
第箱WOE值的计算公式：其中。表示第箱好样本数，是全部好样本数。
优缺点：优点：1)提高模型性能，具有业务意义，比如大于0时，表示该箱的好坏比大于整体样本好坏比；2）统一变量的尺度，一般介于-4~4之间；3）分层抽样后WOE不变。缺点：1）对于多类别变量无效。

4.特征信息值IV

IV可以衡量变量的重要性，进而筛选重要的特征。
IV计算公式：
IV值是非负的；woe反映的是每箱中好坏比相对全体样本好坏比的超出，而IV反映的是这种超出的显著性。需要注意：1）IV越大，特征越重要，但不宜过大，否则有过拟合的风险；2）IV计算同样要求每箱要有好坏样本；3）不仅与特征重要度有关，同时与分箱方式有关，分箱越细，IV越大。

5.单变量分析（Single Factor Analysis）

1.特征重要性
IV>=0.2，有较高重要性
IV介于0.1~0.2，有较弱重要性
IV<0.1，几乎无重要性
2.稳定性
通常使用PSI指标
3.覆盖率
筛除掉覆盖率较低的样本

6.多变量分析（Multi Factor Analysis）

完成单变量分析后，需要对变量的整体性做把控，进一步缩减变量规模，形成全局更优的变量体系。

两两线性相关性，较多的相关性会造成信息冗余，同时增加模型开发、部署与维护的负担。通常使用相关性矩阵检验相关性
多重共线性。多重共线性是指某一变量，与其他变量的线性组合存在较强的线性相关性。多重共线性通常使用方差膨胀因子（VIF）衡量，其计算公式为:
,其中是对的线性回归的决定系数。一般当VIF>10时，表示存在多重共线性。

（如有不同见解，望不吝指教！！）

搭建金融信贷风控中的机器学习模型-(4)特征分箱与编码