信息的度量和作用

信息的度量和作用

1948年,香农在论文“通信的数学原理”中,提出了信息熵,解决了信息的多少以及信息的作用大小的度量问题。

信息熵

要弄清楚一件事情,需要知道不确定的信息,信息量就等于不确定性的多少。
如2010年世界杯,要猜32支球队哪一队是冠军,使用二分的方法,只要猜5次就可以知道哪只球队是冠军
信息量的比特数和所有可能情况的对数函数log有关
以上是在所有队等概率获得冠军的情况下进行衡量,但是这本身不是等概率事件,比特数会更少
由以下公式:

        

对于2010世界杯冠军问题,可以证明,用该公式的值不可能大于5。

这就是熵的定义。


信息熵还跟冗余度有关,有些书本重复的内容很多,那么信息量就小了,冗余度比较大。

不同的语言冗余度差别很大,汉语是相对比较小的。


论文“汉语信息熵和语言模型的复杂度”


信息的作用


信息和情报都是information。

用了苏联人在二战时候的例子,日本人南下Or北上


信息是消除系统不确定性的唯一办法(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)

一个事物内部会存在随机性,也就是不确定性,假定为U,而从外部消除这个不确定性唯一的办法是引入信息I,而需要引入的信息量取决于这个不确定性的大小,即I>U才行

U'=U-I

没有信息的引入,借用任何公式或者数学游戏都无法排除不确定性。

最糟糕的就是引入认为的假设。


条件熵:

可以证明:H(x)>=H(x|Y),H(x|Y)>=H(x|Y,Z),当引入无关的信息时,等号成立


用一句话概括:信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息。


信息论在信息处理中的应用


互信息:对两个随机事件“相关性”的量化度量,互信息定义如下:

由以下等式:

当X和Y完全相关时,它的取值是1;当二者完全无关时,它的取值是0;


利用互信息来对Bush进行机器翻译


相对熵:衡量两个取值为正数的函数的相似性

三条结论:

  1. 对于两个完全相同的函数,它们的相对熵等于0;
  2. 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小;
  3. 对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性。

熵、条件熵和相对熵这三个概念与语言模型的关系非常密切


小结

信息熵不仅是对信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义

你可能感兴趣的:(信息熵)