信息论基础--熵

熵是信息论的基础理论,掌握和学习它十分重要。这里介绍若干信息论中的相关概念,重点参考宗成庆老师的《统计自然语言处理》书籍和课件。也在这,强烈推荐下宗成庆老师的《统计自然语言处理》书籍和课件。


目录

联合熵(joint entropy)

条件熵(conditional entropy)

连锁规则---》log运算而来

熵率(entropy rate)

相对熵(KL距离)

交叉熵

 困惑度(perplexity)

互信息

双字耦合度

信道模型



又称为自信息(self-information),表示信 源 X 每发一个符号(不论发什么符号)所提供的平均信息量。越不确定的随机变量越需要大的信息量用以确定其值。

单位是bit,意思是:这么多的信息,需要多少bit的数据来存储?其中,每个bit位子上,可以存的值只能是0或者1。

例子1:

一次抛硬币,只能是正面和反面。问抛一次的信息熵(不确定性)是多少?

H(x) =-[p(0)log_{2}p(0) +p(1)log_{2}p(1)] =-[0.5log_{2}0.5 +0.5log_{2}0.5]=1

解释:0和1两种情况,只有log_{2}2 1bit 的信息熵。

例子2:

抛一枚骰子,一共6个面,在计算机中需要多少bit的空间存储结果(也就是投掷的结果有多大信息熵)?

H(x)=-[6*(1/6)*log_{2}(1/6)]=-log_{2}(1/6)=log_{2}6 bit

解释:6中可能情况,假设采用早期的计算机,只能0-1编码,至少需要log_{2}6  bit位长度 才能存的下。

 

算法复杂度中的log,可以理解成需要多少步去完成算法的执行。


  • 联合熵(joint entropy)

上述熵是描述单一变量的信息量。如果一个元素,实质上是由两个变量组合而成的,比如一个点(x,y)。那么怎么表示这对变量的信息量?

信息论基础--熵_第1张图片

 

例子1:

一次抛两枚硬币,问抛一次的信息熵(不确定性)是多少?

因为需要考虑两枚硬币的情况,所以仍然以0表示反面,1表示正面。

那么有:

H(x) =-[p(0,0)log_{2}p(0,0) +p(0,1)log_{2}p(0,1)+p(1,1)log_{2}p(1,1)+p(1,0)log_{2}p(1,0)] =-[4*(1/4)*log_{2}(1/4)]=log_{2}4=2bit

解释:4种情况,需要2bit的大小来存储,因此信息熵是2bit。


 

  • 条件熵(conditional entropy)

信息论基础--熵_第2张图片

进阶理解 :

假设给定的X已经确定,比如说X=a,那么 H(Y|X=a)=-\sum_{i} p(Y=y_{i}|X=a).

但是呢,X的取值可能也有很多种情况,并不一定是a,所以需要考虑X的概率分布,所以有

 


  • 连锁规则---》log运算而来

信息论基础--熵_第3张图片

结合贝叶斯公式来理解上式。 


 

  • 熵率(entropy rate)

信息论基础--熵_第4张图片

例子:

假设投掷2次骰子,分别为事件A和B。那么H(X_{ln})=H(A,B)=log_{2}(6*6)

而此时的长度是n=2

那么H_{rate}=0.5*H(X_{ln})


 

  • 相对熵(KL距离)

信息论基础--熵_第5张图片

 

含义:衡量两个概率分布的差距,注意和下面的交叉熵相互区别。

信息论基础--熵_第6张图片


  • 交叉熵

信息论基础--熵_第7张图片

信息论基础--熵_第8张图片

信息论基础--熵_第9张图片

信息论基础--熵_第10张图片

 困惑度(perplexity)

我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度。

信息论基础--熵_第11张图片

 

互信息

信息论基础--熵_第12张图片

信息论基础--熵_第13张图片

信息论基础--熵_第14张图片

信息论基础--熵_第15张图片

双字耦合度

信息论基础--熵_第16张图片

 

信息论基础--熵_第17张图片

 

信息论基础--熵_第18张图片

信道模型

信息论基础--熵_第19张图片

信息论基础--熵_第20张图片

 

 

 

你可能感兴趣的:(nlp,信息论,熵,联合熵,条件熵,相对熵)