信息增益与信息增益比

首先,我们说熵,熵是随机变量不确定性的度量

信息增益与信息增益比_第1张图片
清浅时光929394

那么,为什么用这个公式来定义熵,我们看下熵随概率的变化曲线便会一目了然

信息增益与信息增益比_第2张图片
清浅时光929394

也就是说,熵把特征概率转换成了特征对结果的说明程度,例如,一个人贷款是不是会逾期,p=0.5表明这个特征针对是否会逾期的概率是0.5,也就相当于这个特征对是否逾期的度量相当于投硬币,正反概率都是0.5,说明程度很差,熵为1,达到最大,所以说熵是随机变量不确定性的度量,也是熵公式的含义及来源

下面说说条件熵,在x取值一定的情况下随机变量y不确定性的度量

清浅时光929394

这个就很好理解了,就是对熵加一个条件,相当于概率中的联合分布

重点来了
信息增益是什么,信息增益就是熵和特征条件熵的差

g(D,A)=H(D)-H(D|A)

什么意思呢,就是说对一个确定的数据集来说,H(D)是确定的,那H(D|A)在A特征一定的情况下,随机变量的不确定性越小,信息增益越大,这个特征的表现就越好

所以,信息增益就是在得知特征X一定的情况下,Y(逾期概率)不确定性的减少程度
既然信息增益对特征选取有这么好的帮助,那为什么要用信息增益比呢,信息增益比优于信息增益的地方在哪呢

继续上公式

信息增益与信息增益比_第3张图片
清浅时光929394

在信息增益的基础上除A特征的熵是因为信息增益偏向于选择取值较多的特征,容易过拟合,不过多解释,直接上案例

信息增益与信息增益比_第4张图片
清浅时光929394

信息增益与信息增益比_第5张图片
清浅时光929394

上面案例可以一目了然的看出信息增益偏向于选择取值较多的特征,但根据熵的公式可知,特征越多,熵越大,所以除A特征的熵正好抵消了特征变量的复杂程度,避免了过拟合的存在


在写的第一篇文章,把自己对算法的理解口语化讲解给大家,也希望能与算法和机器学习爱好者多多交流,希望大家支持 ps(认真写一篇文章挺费精力哈哈蛤)

你可能感兴趣的:(信息增益与信息增益比)