woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911

1、woe是什么东西

如果有人接触过信用评分卡,那么肯定是有看过在变量处理那一步,有一个变量woe的过程。那么woe是如何计算的呢,有什么具体含义呢。

woe全称是Weight of Evidence,即证据权重,也叫作自变量的一种编码,这种定义是不是很拗口,也很难理解,但你看过它的公式以后就会比较清楚了。

这是某一变量某一分组的woe,B代表风险客户,G代表正常客户,所以WOE衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异,差异越大,对风险区分越明显。但woe只考虑了风险区分的能力,但没有考虑能区分的用户有多少,所以又引出了一个IV的定义,可以衡量一个变量的风险区分能力:

2、为什么可以woe化

看到我上面说的是为什么可以,而不是为什么一定要,这两者还是有差别的,毕竟我们并不一定要woe化,woe化只是一个好的习惯(经验)而已。

但是你知道为什么在这里是可以woe化的呢,那么在其他算法里面是不是可以woe化呢。

要回答上面这个问题,首先我们可以想想如果变量离散化后不做woe化,那么是不是这个时候的变量可以直接丢到算法里面去学习呢,答案是否定的。如果我们不采用woe化,我们一般会将离散后的变量或者一些类别变量dummy化,那为什么要dummy化呢,而不是直接使用离散后的变量呢,这里的原因就是离散后的变量很难知道各个组之间的数量关系,比如我将年龄分成了20岁以下、20-50、50岁以上三组,也许我可以直接赋1、2、3的数量关系,但是这个数量关系仅仅表示顺序,他们之间实质性的数值间隔你是不知道的。

所以我们知道了变量离散化后不能直接丢到模型里面的原因,那为什么woe化以后就可以了呢,那是因为woe化解决了组(类)与组之间数值未知的情况,为什么这样说呢。我们还需要回到逻辑回归的几个式子上,这里不会有公式推导,逻辑回归的线性公式是:

可以看到,右边是线性的式子,左边是因变量的一个映射,你们看左边,是不是和woe的公式定义很像,但又有点不一样,不一样的地方在哪里呢,就是

,分别是全量样本中的风险样本数和正常样本数,如果我们样本选定后,这两个值其实是确定,所以影响woe就只有这个组里面的B和G了,这个其实是和逻辑回归的左边式子是成一个正比的关系,其实说到这里基本上算是已经明朗了。我把逻辑回归右边的变量(x)woe化,其实就是因为左边需要拟合的就是这种形式,所以这种改变完全可以衡量组与组之间的数量关系。

既然woe化是和逻辑回归的式子是紧密联系的,那么这也说明woe化是不能用在其他算法(不包括树模型)中的。

3、woe化有什么好处呢

有啥好处其实是一个仁者见仁智者见智的事,就我的认知,好处有这么几个:第一,好解释,因为如果dummy的话其实是将一个变量拆开了,会出现某个维度有一部分入模的情况,而woe不会;第二是变量变少了,调整更直观(这个好有道理);第三是woe值可以很好的区分哪些组是负向的,哪些组是正向的。但其实它也有弊端,因为你无法从系数看出这个变量的正负向,因为woe化后,你拟合出来的系数应该都是正的,如果你拟合出的系数有些是负,那么说明你模型没建好,出现了共线性的问题,所以这也算是一个好处呢 。

下篇文章继续讲讲为啥woe后系数为正的的原因。

你可能感兴趣的:(woe分析)