人工智能通识-科普-信息增益率

欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】
【汇总】2019年4月专题


什么是信息增益率?

信息增益回顾

之前的三个文章中谈论了信息增益相关的概念,信息增益-1,信息增益-2,信息增益-3。

信息增益(IG:Info Gain)就是某个条件变为已知之后,整个系统损失的不确定性,即:

条件已知之后系统的不确定性称之为条件熵,计算方法就是根据这个条件所有的可能值将结果分为多个子系统,然后分别计算子系统的熵的概率加权和:

而这里每个子系统的熵的计算方法和标准熵计算公式一样:

信息熵增益的缺陷

回到我们之前的女生择偶数据的例子,这次我们看序号这一列的信息增益值:

可能值1、2、...12共有12个,不管对应的是“否”还是“嫁”,每种子系统的熵都是:

所以条件熵是12个0还是0,原本6嫁6否的系统熵是1,所以信息增益是:

注意,这时候信息增益达到了最大!
一条毫无意义的序号信息获得了最大的信息增益,这是不合理的!

如果我们把“序号”属性作为分类树的根节点会怎样?如果有人问你,“我有个朋友,帮我评估一下他在女生择偶中的竞争力。”那么你只能开口就问“你这个朋友的序号是多少?如果是第5号,那么如果他的身高很高则....”
这太荒唐了,我编不下去了...

总之,当某个属性的分类特别多的时候,信息增益并不总是很有效。

内在信息Intrinsic Information

内在信息也称为分裂信息Split Information,是依照某个条件属性将全部样本划分多个子类,这时候整个划分系统所具有的熵:

这里中的是每个子类的数量,则是所有样本的数量;这里的A是指属性。

举个例子,以性格分类而言:


性格共有好、坏、超好三个分类,数量分别是6个、4个、2个。那么它的内在信息就是:

\begin{align} &SI(S,性格)=-\sum_{i\in A}\frac{|S_i|}{|S|}\log\frac{|S_i|}{|S|}\\ &=-\frac{6}{12}\times \log \frac{6}{12}-\frac{4}{12}\times \log \frac{4}{12}-\frac{2}{12}\times \log \frac{2}{12}\\ &=0.5+0.5283+0.4308\\ &=1.46\\ \end{align}

身高共有高、矮、中三个分类,数量分别是3个、7个、2个。那么它的内在信息就是:

而对于“序号”属性来说,它的内在信息是:

从这里我们看到,分类越是规则,内部信息越多。比如4、6、2的分法比3、7、2稍微更规则一点,而按照序号分每一个占一类的分法也更大。

如果均分12类每类1个那么就SI就是;
均分6类SI就是;
均分4类SI就是;
均分3类SI就是;
均分2类SI就是;
整个1类SI就是0。

每个1类的情况拥有最大的划分信息量。

信息增益率Info Gain Ratio

信息增益率IGR就是指信息增益除以划分信息量,即:

这样我们可以得到“序号”属性的信息增益率是:

同样的参考文章信息增益-3中我们计算的信息增益结果,得到:


信息增益率仅作为另外一个补偿性参考,一般的可以先考虑信息增益,然后再对信息增益比较高的几个属性对比信息增益率。


欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


每个人的智能新时代

如果您发现文章错误,请不吝留言指正;
如果您觉得有用,请点喜欢;
如果您觉得很有用,欢迎转载~


END

你可能感兴趣的:(人工智能通识-科普-信息增益率)