特征分桶的方法

对于一些连续型特征,有时直接使用效果不好,或者不适合某种模型使用,可以进行分桶,变成类别型变量。类别型变量,特别是类别数比较多的特征,也可以使用分桶的方法,进行合并,或者踢掉一些作用不大的类别。那应该怎么划分呢?有什么数据支撑划分的合理性,一般常用WOE与IV值结合进行判断。

1、WOE:Weight Of Evidence

计算公式:

即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=某桶坏客户比例/好客户比例

该值越大,说明坏客户比例越高 ,包含的信息越大,区分性越强,对模型预测能力作用越大。

分桶的数量控制:一般是10~20桶就可以,每个分桶应保证不少于5%的样本,一般先精细分桶(20~50个),再粗分桶,通过IV值、基尼系数、卡方统计量等进行桶合并,每桶具有明显区分最好。

如何用WOE检验分桶的准确性:

1)WOE应该呈单调趋势

2)在预测变量做了WOE编码后跑一个单变量的逻辑回归,如果斜率不为1或者截距项不等于 ,则该分箱效果不佳。

 对于离散变量,例如职业包含学生、老师、工人等名义属性时,先将变量的不同level作WOE编码后,把WOE值相近的level合并在一起,这样可以减少level数量。因为有相近的WOE值的level有几乎相同的响应率/非响应率,换句话说,某几个level有相近的woe值就将他们合并成一个箱子。

为什么WOE值可以叫证据权重:

WOE实际表达的是加入该特征后,增加的信息量,越大越好,有点像信息增益

特征分桶的方法_第1张图片

特征分桶的方法_第2张图片

特征分桶的方法_第3张图片

2、IV:information value

 n是分桶的数量

IV=((当前分桶中响应数量/整体样本响应数量)/(当前分箱未响应数量/整体样本未响应数量))*WOE

特征分桶的方法_第4张图片

  如果IV值大于0.5,则考虑要对这个变量进行分群处理。即根据这个变量拆分成几个样本子集,分别在各个样本子集上建模。

IV值注意事项

  • IV值会随着分箱数的变多而增长,但是如果分箱数量过多,比如大于20个分箱会导致每个分箱中样本数量太少,导致某个分箱几乎没有响应的样本或者是几乎没有未响应样本
  • 当你在建立的分类模型不是二元逻辑回归模型时,比如你用SVM或者是随机森林等,不应 该用IV值作为变量选择的方法,因为IV值作为变量选择的方法是专门针对逻辑回归设计的

参考资料:

【详解】银行信用评分卡中的WOE在干什么? - 知乎

你可能感兴趣的:(数据挖掘)