信用评分卡中的数据预处理和特征衍生

image.png
image.png
image.png

这里总结得很好,做特征的时候可以从这些角度去思考:

  • 计数:带过多少次款,有多少消费记录,有多少。。。
  • 求和:消费总金额
  • 占比:贷款额度与年收入的占比
  • 时间差:第一次开户距今的时长
  • 波动率:过去三年内每一份工作的时间标准差

特征的分箱

  • 将连续变量进行离散化
  • 将多状态的变量合并成为少状态的变量

分箱的重要性

稳定性:避免特征无意义的波动对预测带来的波动
健壮性:避免极端值的影响

分箱的优势

  • 可以将缺失值作为一个独立的箱带入模型当中
  • 将多有的变量变换到相似的尺度

分箱的方法

有监督:

  • Best-KS
  • ChiMerge

无监督:

  • 等频
  • 等距
  • 聚类
image.png
image.png
image.png
image.png
image.png

分箱的注意点

对于连续型变量

  • 使用ChiMerge进行分箱
  • 检查分箱后bad rate 的单调性 ,如果不满足,需要进行相邻两箱的合并
  • 上述过程一定是收敛的
  • 分箱必须覆盖训练样本之外所有可能的值
    -当类别比较少的时候,原则上不需要分箱
  • 当某几个类别bad rate 为0的时候,需要和最小的非0的bad rate 的箱进行合并
  • 当该变量可以完全区分目标变量的时候,需要认真检查该变量的合理性

WOE 编码(weight of evidence)

优势

  • 将特征的尺度规范到近似的范围
  • 具体的业务含义


    image.png

WOE编码的意义

  • 符号与好坏样本的比例相关
  • 要求回归模型的系数是负数

你可能感兴趣的:(信用评分卡中的数据预处理和特征衍生)