风控建模之woe分箱

一、自动分箱-粗分箱方法介绍

约定初始化分箱的个数为10。
定义:,代表箱子。
woe的含义是什么呢?我们可以想一下,假如不对变量进行分箱,即只有一箱,那么该箱的woe值是多少呢?答案是。因为,

现在我们可以尝试理解一下若woe大于0或者woe小于0代表了什么?从上面的推导我们可以得知当箱子内的坏好比和整体坏好比(可以理解为“大盘”)相等时,woe为0。那么woe大于0,就可以理解为箱子内的坏好比是高于“大盘”的,箱子内的客户质量较差;woe小于0,是箱子内的坏好比低于“大盘”,箱子内的客户质量较好。

1.1 iv

  • 算法
    -1.初始化10箱,计算每一箱的iv值
    -2.对箱子进行两两合并,合并的原则是只能合并相邻的两箱,设合并前两箱的iv值分别是,,合并后为,计算的值
    -3.合并最小的两个箱子,跳转2,直到分箱个数=目标箱数

  • 原理
    iv值越大,说明该变量越能区分好坏样本,因此在箱子合并时,应本着iv值损失最小的原则。

1.2 mapa

MAPA 单调相邻池化,也称为最大似然单调粗分类,该方法可以使得分箱得到的woe与bin呈现单调上升或单调下降的关系。

  • 算法
    -1.初始化10箱,计算每一箱的iv值
    -2.第一次循环,从最小的bin开始计算,,得到序列;第二次循环及以后,从断点的下一个bin开始计算,:
    woe与bin的关系单调下降:

    woe与bin的关系单调上升:

    -3.得到分割断点,跳转2,直到

    -4.假设得到三个断点,则最后的分箱结果为:
  • 原理
    因为断点得到最大的,则
    \begin{align} &br_k > br_j \ \ (j>k) \\ =>& \frac{B_k}{B_k+G_k} > \frac{B_j}{B_j+G_j} \\ =>& \frac{B_k}{G_k} > \frac{B_j}{G_j}\ \ \ (B、G均为正数,两边同乘(B_k+G_k)*(B_j+G_j))\\ =>& \frac{B_k/B_{total}}{G_k/G_{total}} > \frac{B_j/B_{total}}{G_j/G_{total}} , 即 woe_k>woe_j得证 \end{align}
    其中。bin小的woe值bin大的woe值,即woe与bin之间的关系是单调下降的。同理可对单调上升的公式进行验证。

1.3 树分箱

  • 算法
    -1.使用单个自变量与因变量训练决策树模型,得到bin

  • 原理
    使用决策树模型,单棵树在学习的时候更倾向于区分好坏样本进行节点的分裂(即分箱),同iv的原理相似。

二、分箱实操

分箱是一个很细的工作,需要丰富的风控经验,在经验不足的情况下,可以参考下面的一些注意事项和原则。

  • 数据穿越检测:
    分完箱子,可以先检查下有没有iv值特别大的变量,若存在,需要判断是否有数据穿越问题(即用未来的数据预测现在)。可以注意下近24个月违约次数等违约类特征,当发生数据穿越时,该类特征的iv值会偏高。

  • 进行分箱的变量筛选原则
    金额类的不建议使用,意义不明的不用,难以解释的不用,分布奇怪的不用。最后得出来的变量最好拥有不同的维度:申请类的、违约类的、人口统计特性等。

  • 分箱原则
    1.违约类的变量分bin从0开始;
    2.若邻近箱的woe值较为接近的话,就可以合并。

你可能感兴趣的:(风控建模之woe分箱)