熵,互信息,KL距离(相对熵),交叉熵

信息论中的熵,又叫信息熵。它是用来衡量,一个随机变量的不确定程度。
熵越大,他的不确定性越大。最大熵模型的假设就是基于此而来。

H(X)=E[I(xi)]=n=1NP(xI)log(P(xi))

联合熵

联合熵用得比较少。它表示,我要描述这一对随机变量,平均下来我所需要的信息量。

H(X,Y)=xXyYp(x,y)log(p(x,y))

互信息

互信息反映的是在知道了Y以后,X的不确定性的减少量,可以理解为Y的值透露了多少关于X的信息量。

I(X,Y)=H(X)H(X,Y)

相对熵

KL距离是用来衡量,两个分布之间的相似度。当两个随机分布完全相同,相对熵为0.
公式:

D(P||Q)=xXP(x)logP(x)Q(x)

可见,它不满足交交换律。

交叉熵

交叉熵:如果一个随机变量X 服从 p(x)分布,q(x)用于近似p(x)的概率分布,那么随机变量和模型q之间的交叉熵定义为:

H(X,q)=xp(x)log(q(x))

其中熵和交叉熵是我们用得比较多的,交叉熵损失函数是机器学习中常用的一个损失函数,
例如一个多分类问题,一个样本正确的label是他被分到类别1-5的概率为[0,0,0,0.8,0.2],而模型的输出可能是[0.1,0.2,0.1,0.5,0.1],那么就可以通过上面的公式算出一个损失。换句话说[0,0,0,0.8,0.2]是p(x),[0.1,0.2,0.1,0.5,0.1]是q(x),我们的优化目标是使得
H(X,q) 尽可能的小。

交叉熵损失也可用于二分类。下面y表示label取值范围为{0,1}

信息增益

数据集合D中关于属性a的信息增益:

Gain(D,a)=H(D)v=1V|Dv||D|H(Dv)

意思也就是,按照这个属性划分数据集D(D中有正样本和负样本),这种划分越能够把正负样本给区分开来,那么他的信息增益就高。
然而,由于信息增益倾向于选择属性值较多的。所以有了信息增益率。

基尼系数

而还有个叫基尼系数的东西。。它的公式很简单很好记。直观来说,它反映了从数据集D中随机抽取两个样本其类别标记不一致的概率。

Gini(D)=k=1|y|kkpkpk

Gini(D,a)=vV|Dv||D|Gini(Dv)

你可能感兴趣的:(机器学习,自然语言处理)