基于R语言的卡方分箱

在做风控策略分析时，我们经常要对某个变量进行离散化，查看不同阶段的好坏用户分布情况，好的离散化方法可以让我们找到比较好的策略分界点。
本片文章主要讲述卡方分箱

一、理论

基本思想：卡方分箱是依赖于卡方检验的分箱方法，在统计指标上选择卡方统计量（chi-Square）进行判别。卡方分箱的基本思想是判断相邻的两个区间是否有分布差异，如果两个相邻的区间具有非常类似的分布，则这两个区间可以合并；否则，它们应当保持分开。基于卡方统计量的结果进行自下而上的合并，直到满足分箱的限制条件为止。

卡方分箱的实现步骤：

1. 预先设定一个卡方的阈值或者分箱个数的阈值。

在做分箱处理时可以使用两种限制条件：

分箱个数：限制最终的分箱个数结果，每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并，直到分箱个数达到限制条件为止。
卡方阈值：根据自由度和显著性水平得到对应的卡方阈值，如果分箱的各区间最小卡方值小于卡方阈值，则继续合并，直到最小卡方值超过设定阈值为止。

通过显著性水平和自由度计算出这个阈值，然后数据的卡方值与这个阈值进行比较，如果卡方值大于阈值，就可以推翻原假设(两个相邻区间的分布无差异);如果卡方值小于阈值，则不能推翻原假设(两个相邻区间的分布无差异),即可合并。

显著性水平，当置信度90%时显著性水平为10%，ChiMerge算法推荐使用置信度为0.90、0.95、0.99。
自由度，比分类数量小1。例如：有3类,自由度为2。

类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6（在excel中用CHIINV(0.1,2)算出）。大于阈值4.6的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。

2. 初始化：根据要离散化的数据对实例进行排序，每个实例属于一个区间

3. 合并区间：

计算每一对相邻区间的卡方值
将卡方值最小的一对区间合并（合并需要符合以下两个条件之一）

image.png

4.评估指标

分完箱之后需要评估，常用的评估手段是计算出WOE和IV值。对于WOE和IV值的含义，看数据挖掘模型中的IV和WOE详解

分箱的注意点

对于连续型变量，

• 使用ChiMerge进行分箱(默认分成5个箱)

• 检查分箱后的bad rate单调性；倘若不满足，需要进行相邻两箱的合并，直到bad rate为止

• 上述过程是收敛的，因为当箱数为2时，bad rate自然单调

• 分箱必须覆盖所有训练样本外可能存在的值！

• 原始值很多时，为了减小时间的开销，通常选取较少(例如50个)初始切分点。但是要注意分布不均匀！

对于类别型变量，

• 当类别数较少时，原则上不需要分箱

• 当某个或者几个类别的bad rate为0时，需要和最小的非0 的bad rate的箱进行合并

• 当该变量可以完全区分目标变量时，需要认真检查该变量的合理性

要求分箱完之后：

（1）不超过5箱

（2）Bad Rate单调

（3）每箱同时包含好坏样本

（4）特殊值如－1，单独成一箱

连续型变量可直接分箱

类别型变量：

（a）当取值较多时，先用bad rate编码，再用连续型分箱的方式进行分箱

（b）当取值较少时：

（b1）如果每种类别同时包含好坏样本，无需分箱

（b2）如果有类别只包含好坏样本的一种，需要合并

二、代码

2.1 R包--discretization

discretization包，是一个用来做有监督离散化的工具集，主要用于卡方分箱算法，它提供了几种常用的离散化工具函数，可以按照自上而下或自下而上，实施离散化算法。

项目主页： https://cran.r-project.org/web/packages/discretization/

提供了几个主要的离散化的工具函数：

chiM，ChiM算法进行离散化
chi2, Chi2算法进行离散化，在chiM的基础上进行优化
mdlp，最小描述长度原理(MDLP)进行离散化
modChi2，改进的Chi2方法离散数值属性
disc.Topdown，自上而下的离散化
extendChi2，扩展Chi2算法离散数值属性

chiM算法进行离散化（根据卡方阈值来设定合并停止条件)

ChiM()函数，使用ChiMerge算法基于卡方检验进行自下而上的合并。通过卡方检验判断相邻阈值的相对类频率，是否有明显不同，或者它们是否足够相似，从而合并为一个区间。
chiM(data,alpha)函数解读。
* 第一个参数data，是输入数据集，要求最后一列是分类属性。
* 第二个参数alpha，表示显著性水平。
* 自由度，通过数据计算获得是2，一共3个分类减去1。