数学之美(六)

信息的度量和作用

怎样衡量信息量和信息的作用?1948年香农提出了信息熵的概念,解决了信息的度量问题并量化了信息的作用。

1 信息熵

一条信息的信息量和它的不确定性直接相关。要搞清楚一个非常不确定的事情需要大量信息,对某件事有足够了解则不需要太多信息来弄清楚此事,因此信息量等于不确定性的多少。

如何量化信息?比如我想知道2010年世界杯冠军是谁,对方让我在32支球队里猜,每猜一次要付一块钱。我给球队编号,问“冠军在1-16中吗”,他说是的,我再问“冠军在1-8中吗”,这样只需5次就知道冠军是谁,也就是这条信息值5块钱。香农用比特来度量信息量,1比特是一位二进制数,计算机中1字节=8比特,在上面的例子中信息量是5比特(如果有64支球队参赛,信息量就是6比特),信息量的比特数和所有可能情况的对数函数有关()

读者可以发现实际上不需要5次就能猜出冠军,因为热门队的得冠几率更大,第一次猜测时可以把少数几支热门队分在一组,然后猜冠军球队是否在热门队中,再根据夺冠概率对剩下的球队分组,直到猜出冠军队,这样也许3-4次就能猜出结果。因此概率不等时,信息量小于5比特,香农指出准确信息量为

等我有人脉了我要让出版社加上log底数为2

其中p1,p2,...,p32分别是32支球队夺冠的概率,香农称之为信息熵(entropy),用符号H表示,单位是比特。当32支球队夺冠几率相同时,信息熵达到最大值5比特【可以使用琴生不等式证明】,对于任意一个随机变量X,它的熵定义为:

底数为2

变量的不确定性越大,熵就越大,把它搞清楚所需要的信息量就越大。信息熵的命名来自于热力学中的熵。有了这个概念,我们可以知道一本50w字的中文书平均有多少信息量,常用汉字(一级二级国标)约7000字,假如每个字等概率,需要13比特(13位2进制数,log2,7000=12.77)表示一个汉字,但汉字使用是不平衡的,前10%的汉字(按网上说法就是头部汉字)占常用文本95%以上,此时信息熵降到8~9比特,再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以一本50w字的中文书,信息量约250w比特,如果用一个好的算法,可压缩成一个320KB的文件。如果直接用两字节的国标编码存储需要约1MB,是压缩文件的三倍,信息论中把这两个数量差距称为“冗余度”。特别说明:250w比特是平均数,同样长度的书所含信息量可以差很多,如果一本书重复内容多,那么它的信息量小,冗余度大。

不同语言的冗余度差别很大,汉语冗余度相对较小,同样的书英文版比中文版要厚很多,这和人们普遍的认知一致:汉语是最简洁的语言。

2 信息的作用

信息和消除不确定性相联系,在英语里信息和情报是同一个词information,情报的作用就是排除不确定性。在战争中1比特的信息能抵过千军万马,二战时德军兵临莫斯科,斯大林在欧洲无兵可派,而在中苏边界有60w大军不敢使用,因为苏联不知道日本会北上进攻苏联还是南下。传奇间谍佐尔格向莫斯科发出了仅1比特的情报:“日本将南下”,于是苏联把西伯利亚的军队调往欧洲战场。

无信息时系统是黑盒子,引入信息可以了解盒子内部结构

信息是消除系统不确定性的唯一方法。事物内部存在随机性(也就是不确定性U),从外部消除U的唯一方法是引入信息I,需要引入的信息量I取决于U的大小,即I>U。I

以网页搜索为例,网页搜索的本质是从大量(几十亿)网页中找到和用户输入搜索词最相关的几个网页,几十亿个可能性是很大的U,如果只有几个网页就几乎没有不确定性了(比如导航类搜索,第一条结果通常是要找的网页),如果提供的信息不够多,比如搜索词是常用关键词“中国”“经济”等,那会出现很多结果,用户无从选择。正确的做法是挖掘新的隐含信息,如网页本身的质量信息。如果这些信息还不够消除不确定性,不妨再问问用户。不正确的做法是在关键词上玩数字和公式的游戏,因为没有引入其他信息,不能提高搜索质量。最糟糕的做法是引入人为的假设,满足了部分用户的口味,但对大部分用户来说效果更差了。

知道的信息越多,随机事件的不确定性就越小。这些信息可以直接针对我们要了解的事件,也可以是随机事件相关信息,比如自然语言统计模型的一元模型就是根据某个词本身的概率分布来消除不确定因素,而二元和高阶模型还使用了上下文的信息,能更准确地预测句子中的词。在数学上要证明相关信息也能消除不确定性,需要引入条件熵的概念。假设X和Y两个随机变量,X是我们需要了解的,假设现在知道X的随机分布P(X),就知道了X的熵(上面的熵定义公式),假设我们还知道Y的一些情况,包括它和X一起出现的概率【联合概率分布】,以及Y取不同值的前提下X的概率分布【条件概率分布】,定义在Y的条件下X的条件熵为:

因为H(X)≥H(X|Y),所以多了信息Y,X的不确定性下降了,在统计语言模型中,如果把Y看成前一个字,等价于二元模型的不确定性小于一元模型。同样,可以定义有两个条件Y,Z时X的条件熵为:

同样有H(X|Y)≥H(X|Y,Z),即三元模型不确定性小于二元。在上两式中等号成立的条件是Y(或Y,Z)和X无关,即增加无关信息时不确定性没有降低。如果佐尔格送去的情报是德国和英国在北非战场的行动,无论信息量有多大,都无法解决斯大林的问题。因此自然语言处理有大量问题是找相关信息。

你可能感兴趣的:(数学之美(六))