数据分析案例(四)——评分卡模型(二)

本文章关于有监督分箱的方法:

Best KS法

  • 基本原理:分箱后各个组别的分布差异化最大(bad rate - good rate,最大化的点)
  • 典型操作步骤(连续变量为例):
    1. 按数值大小排序
    2. 选取使KS值达到最大的数值作为拆分点
    3. 重复以上2-3步骤,直到满足终止条件
  • 终止条件:
    1. 分箱后最小区段占比低于指定与之(常用5%)
    2. 分箱后对应的箱体因变量位常量(都是好样本、坏样本)
    3. 分箱后bad rate 应该呈现单调趋势,如果是波动趋势,则应该停止
  • 方法缺陷: 只能针对因变量位两分类的情形进行分箱。这个比较简单,没有卡方分箱比较好

卡方分箱

  • 自底向上(基于合并的)数据离散化方法
  • 它依赖于卡方检验,将具有最小卡方值的相邻区域合并在一起,知道满足确定的停止准则
  • 基本思想:相似类的分布在一个区间内应当完全一直
    1. 如果两个相邻的区间具有非常相似的类分布,则这两个区间可以合并
    2. 否则,它们应当保持分开
    3. 利用卡方值来衡量他们是否具有相似的类分布
  • 步骤
    1. 事先设定卡方阈值
    • 常取0.1,0.05,0.01,最小区间数取5-10
    • 需要多种分箱结果相互比较,因此阈值的设定不存在金标准,还是要根据经验
    1. 初始化
    • 连续变量按取值排序
    • 分类变量按bad rate进行排序(类别:A,B,C,bad rate分别是:0.1,0.4,0.3,那么A和C合并比较好)
    1. 合并区间
    • 计算各相邻区间的卡方值(四个表卡方)
    • 将卡方值最小的一对区间合并,且两组的卡方阈值没有超过事先设定的,则说明这两个组别在统计上差别很小
    • 重复上述过程,直到最小卡方值高于阈值,或者分箱数等于指定的最低数值
      如果卡方值越大,二者偏差程度越大

分箱判断好坏

WOE:证据权重

  • 分箱之后,WOE是要成单调趋势比较好,不能又增又减
  • 甄别出分箱是否合格

IV(信息值)变量预测重要性的判断指标

  • 既可以判断这个变量用来建模的重要性,还可以判断同一个变量的哪个分箱策略更好一些
  • 好坏客户分离度
  • IV值越大,说明分箱效果越好
  • IV可以用于筛选变量,简化模型,降低模型开发的使用成本(分箱之后计算iv值,取前n个最大的)
  • 经验界值
    • IV<0.02 ,该变量基本无帮助
    • 0.02<=IV<=0.1,该变量对预测目标变量又一些帮助
    • 0.1<=IV<=0.3,又较大帮助
    • 0.3<=IV,有很大帮助,但是可以取深挖到底是什么原因,可以进行
    • IV>=0.5,该变量多半有问题,此时需要检查背后的逻辑,常见于时间变量,于结局变量有很大的关系
      IV和分箱的数量也有关系,数量越多,IV值就容易高,所以在考虑值的时候,对于多的箱体,可以实当提高一下界值

你可能感兴趣的:(数据分析案例(四)——评分卡模型(二))