自然语言中的重要概念——熵(Entropy)

一、背景

熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。

熵(Entropy)是描述事物无序性的一个重要的参数,熵越大则无序性越强,同时,熵表示一个随机变量的不确定性。

二、熵

1、信息熵

香农指出,一条信息的信息量和它的不确定性之间有着直接的关系。因此可以使用信息熵来描述信息量的多少。

信息熵的定义为:设一个随机变量 X ,其可能的 m 种取值为 x1,x2,,xm ,对于每一种取值的概率为: p1,p2,,pm ,那么随机变量 X 的不确定度,即信息熵,用 H(X) 表示:

H(X)=i=1mpilog21pi=i=1mpilog2pi

信息熵表示的是随机变量 X 可能的变化,若随机变量的变化越多,那么其信息量越大。而与随机变量的具体取值无关,只与其值的类别以及每种类别的概率有关。

2、条件熵

条件熵(Conditional Entropy)的定义为:设两个随机变量 X Y ,在 X 已知的前提下, Y 的熵,定义为 Y 的条件熵,用 H(YX) 表示:

H(YX)=xi,yjm,np(xi,yj)log2p(yjxi)

对于上述的条件熵的定义,可由下面的推理得到:

H(YX)=p(x1)H(YX=x1)++p(xm)H(YX=xm)=i=1mp(xi)H(YX=xi)=i=1mp(xi)j=1np(yjxi)log2p(yjxi)=i=1mj=1np(yj,xi)log2p(yjxi)=xi,yjm,np(xi,yj)log2p(yjxi)

3、联合熵

联合熵和联合分布的概念类似,联合熵指的是多个随机变量的熵。联合熵的定义为:设两个随机变量 X Y p(xi,yj) 表示联合概率,则联合熵表示的是随机变量 X Y 共同携带的信息量,用 H(X,Y) 表示:

H(X,Y)=xi,yjm,np(xi,yj)log2p(xi,yj)

其中,条件熵,联合熵和熵之间的关系为:

H(YX)=H(X,Y)H(X)

对于上式的证明如下:

H(X,Y)H(X)=xi,yjm,np(xi,yj)log2p(xi,yj)+i=1mp(xi)log2p(xi)=xi,yjm,np(xi,yj)log2p(xi,yj)+i=1mj=1np(xi,yj)log2p(xi)=xi,yjm,np(xi,yj)(log2p(xi,yj)log2p(xi))=xi,yjm,np(xi,yj)log2p(yjxi)=H(YX)

对于联合熵,有一些性质,如下所示:

  • H(X,Y)H(X)
  • H(X,Y)H(X)+H(Y)
  • H(X,Y)0

4、相对熵

相对熵,又称为交叉熵或者KL距离或者KL散度。主要是用来度量两个概率分布之间的差异程度。假设两个概率分布 P(x) Q(x) ,用 D(PQ) 表示两个分布之间的KL散度:

D(PQ)=xXP(x)log2P(x)Q(x)

当两个分布完全相同时,此时KL散度为 0

三、互信息

KL距离衡量的是相同的事件空间里的两个事件的相似程度,而互信息衡量的是不同事件空间中的两个信息的相关性。设两个随机变量 X Y ,互信息为 I(X,Y)

I(X,Y)=i=1mj=1np(xi,yj)log2p(xi,yj)p(xi)p(yj)

互信息就是随机事件 X 的熵 H(X) ,以及在给定随机变量 Y 的条件下的条件熵 H(XY) 之间的差异,即:

I(X,Y)=H(X)H(XY)

由上述的定义可知,互信息与信息增益等价。

参考文献

  • 数学之美

你可能感兴趣的:(自然语言,熵)