决策树学习之信息增益

决策树学习之信息增益


信息增益的用处

信息增益(information gain),描述的是一个特征能够为整个系统带来多少信息量(熵,entropy)

信息增益用于特征选择,对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。

如果一个特征能够为系统带来最大的信息量,则该特征最重要,将会被选作划分数据集的特征

信息增益与熵

熵(entropy)

信息论中的熵的计算公式如下:

H(X)=i=1nPilog2Pi H ( X ) = − ∑ i = 1 n P i l o g 2 P i

该公式描述的是信息量的大小,理解如下: 某一个状态出现的可能性越小,信息量越大;某一事件出现的状态越多,越复杂,总的信息量越大。

其实物理学中也有熵的概念,描述的是系统的状态,越混沌的系统熵越高,热力学第三定律说系统熵总是向着增加的方向变化,如果促使一个组件的熵减少(有序),必须对之做功,但仍然造成了整个系统的熵增加(以热、辐射等不可回收的方式)

信息增益与熵的关系

信息增益表述的是,对于一个系统,某特征有与无时信息量的变化。
上面的熵公式已经给出了存在所有特征时的信息量,关键在于如何计算某特征不存在时的信息量。

我们换个角度想问题,把系统要做的事情想象成这样:说教室里有很多座位,学生们每次上课进来的时 候可以随便坐,因而变化是很大的(无数种可能的座次情况);但是现在有一个座位,看黑板很清楚,听老师讲也很清楚,于是校长的小舅子的姐姐的女儿托关系 (真辗转啊),把这个座位定下来了,每次只能给她坐,别人不行,此时情况怎样?对于座次的可能情况来说,我们很容易看出以下两种情况是等价的:(1)教室 里没有这个座位;(2)教室里虽然有这个座位,但其他人不能坐(因为反正它也不能参与到变化中来,它是不变的)。

对应到我们的系统中,就是下面的等价:(1)系统不包含特征t;(2)系统虽然包含特征t,但是t已经固定了,不能变化。

我们计算分类系统不包含特征t的时候,就使用情况(2)来代替,就是计算当一个特征t不能变化时,系统的信息量是多少。这个信息量其实也有专门的名称,就叫做“条件熵”,条件嘛,自然就是指“t已经固定“这个条件。

但是问题接踵而至,例如一个特征X,它可能的取值有n多种(x1,x2,……,xn), 当计算条件熵而需要把它固定的时候,要把它固定在哪一个值上呢?答案是每一种可能都要固定一下,计算n个值,然后取均值才是条件熵。而取均值也不是简单的 加一加然后除以n,而是要用每个值出现的概率来算平均(简单理解,就是一个值出现的可能性比较大,固定在它上面时算出来的信息量占的比重就要多一些)。点我见原文

以上的分析很精彩,一看就茅塞顿开。
具体公式就不用摆出来了


Over

你可能感兴趣的:(机器学习)