信息值IV(infromation value)

1. 变量分析的步骤

  1. 首先从已有的数据中挑选或组合可能影响风险的变量,组成变量群(长清单)
  2. 检查变量之间的共线性,若变量之间存在高度相关性,之后依据预测能力及稳定性择一保留
  3. 进行单因子分析,检查各变量的预测强度(以变量-年收入为例)
    • 分组:按照年收入高低分组
    • 分组原则:
      • 组间差异大,组内差异小
      • 分组占率不宜低于5%
      • 各组必须同时拥有好坏客户

2. WOE (weight of evidence):迹象权数

  1. 计算公式: ln(正常件占比/违约件占比)
  2. 违约件占比 > 正常件占比 ,WOE为负数
  3. 绝对值越高,表明该组别好坏客户的区隔程度越高
  4. 各组之间的WOE值差距应尽可能拉开并呈现由低至高的合理趋势

3. IV (information value):信息值

  1. IV计算公式


  2. n 表示数据分析的组数

  3. 信息值可用来表示变量的预测能力

1.提高信息值的方法: 调整合并WOE相近的组别,最后得到的分组结果称为粗分类
2. 待所有长清单的变量信息值计算完成后,即可从中挑选变量
- 优先排除高度相关、趋势异常、解释不易及容易偏移者
- 经过筛选后的变量集合称为短清单,这个清单即模型的候选变量
- 建立模型时可以利用顺向进入法,反向排除法及逐步回归法等方法选出效果最佳的变量组合

你可能感兴趣的:(信息值IV(infromation value))