学习笔记9.25

信息增益

参考周志华老师的机器学习这本书,学习了信息增益的内容:

“信息熵”是度量样本集合纯度最常用的一种指标。假设当前样本集合中第 k 类样本所占的比例为pk(k=1,2,...,|y|),则 D 的信息熵定义为

Ent(D)=k=1|y|pklog2pk

Ent(D) 的值越小,则 D 的纯度越高。
假定离散属性a V 个可能的取值{a1,a2,...,aV} ,若使用 a 来对样本集D 进行划分,则会产生 V 个分支节点,其中第v 个分支节点包含了 D 中所有在属性a 上取值为 av 的样本,记为 Dv . 计算出 Dv 的信息熵,考虑到不同的分支节点包含的样本数不同,给分支节点赋予权重 |Da||D| 即样本数越多的分支节点的影响越大,于是课计算出用属性 a 对样本集D 进行划分所获得的“信息增益”

Gain(D,a)=Ent(D)v=1V|Dv||D|Ent(Dv)

一般而言,信息增益越大,则意味着使用属性 a 来进行划分所获得的纯度提升。

互信息

根据维基百科的定义:一般地,两个离散随机变量X Y 的互信息可以定义为:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p{y})

p(x,y) X ,Y 的联合概率分布函数, p(x) p(y) 分别是 X ,Y 的边缘概率密度。
在连续随机变量的情形下,求二重积分
I(X;Y)=YXp(x,y)log(p(x,)p(x)p(y))dxdy

直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

你可能感兴趣的:(算法中餐厅,学习笔记,机器学习)