最大熵模型

熵H(X)又称自信息,是描述一个随机变量不确定性大小的量,熵越大则不确定性越大,则需要用更多的信息量来消除这种不确定性。前面《浅谈机器学习基础》中讲决策树的时候就提到了香农熵。

在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布真实的反映了事件的分布情况。以此为依据构建的模型叫做最大熵模型,后面会详细讲,这里只做简单介绍。

然后是联合熵H(X,Y)、条件熵H(Y|X)和互信息I(X;Y):

最大熵模型_第1张图片

联合熵、条件熵、互信息

熵H(X)是描述一个随机变量X所需要的信息量,而联合熵H(X,Y)就是描述两个随机变量X和Y所需要的信息量,联合熵大于或等于这两个变量中任一个的熵。

互信息I(X;Y)描述的是两个随机变量X和Y之间的相关性,也即已知X后,Y不确定性的减少量(熵H(Y)的减少量),反之亦成立。换句话讲,X与Y关联越大,越相关,则互信息I(X;Y)越大。

条件熵H(Y|X)就是在已知X的条件下,Y的熵。因为互信息I(X;Y)的存在,已知X会使Y的熵减少,减少后的Y的熵就是H(Y|X)。

从图中也可以看出:H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)。回想一下,是不是和条件概率的计算公式有相似的地方。

接下来是相对熵D(p||q),相对熵又称Kullback-Leibler差异,或简称KL距离,是衡量相同事件空间里两个概率分布相对差距的测度,当两个随机分布完全相同时,相对熵为0。当两个随机分布的差别增加时,其相对熵期望值也增大。

然后是交叉熵H(X,q),X是随机变量,q是模型。我们前面讲过交叉浅谈自然语言处理基础(上)熵损失函数,交叉熵的概念就是用来衡量估计模型与真实概率分布之间差异情况的。而困惑度的概念与交叉熵相似,交叉熵对应的困惑度的计算方式为:2的交叉熵次方。交叉熵与困惑度都是越小越证明模型有效。

 

 

你可能感兴趣的:(NLP)