信息技术与计算科学(二)信息的度量

关与作者更多博客请访问云里云外开源社区

文章目录

      • 一、信息
        • 自信息量:
        • 信息熵:
          • 城市天气情况信息熵
          • 中英文字符的信息量(汉语才是真正的言简意赅呢)
        • 案例答案

一、信息

信息就是不确定性的消除量 香农<美>

显著特性:信息与概率有关

eg. 猜测2022年世界杯冠军球队(一共32只球队)

  1. 二分法,1/2,1/4,1/8,1/16,1/32。一共猜五次
  2. 将夺冠概率高的四队放入一组,其他所有球队放入另一组。猜3次

自信息量:

随机事件x,发生概率的对数的相反数。或者随机事件x带给我们的信息量。用I(x)表示,单位是bit 比特。

例如,事件x;掷骰子,六点朝上。概率P(x)=1/6。https://private.codecogs.com/gif.latex?I%28x_%7Bi%7D%29%3D-log_%7B2%7Dp%28x_%7Bi%7D%29。I(x)=2.58(bit)以2为底,表示二进制(两种状态)。注意,下列计算结果均为近似值,这里以等号表示

事件y;小明今天吃饭了。P(x)=99.99%. I(y)=0.00015(bit)

事件z:某沿海地区发生海啸 P(z) = 0.01% I(z)=13.288(bit)

有关系式可以得出,概率与信息量呈负相关关系。一件事发生的概率越小,其信息量越大。在现实生活中也是一样,比如有人对你说,你们明天放长假,你肯定会想,这个信息量有点大。

信息熵:

设随机变量X取值于\left {x _{i}|i=1,2,...,n \right },x_{i}出现的概率为p(x_{i})\sum_{i=1}^{n}p(x_{i})=1
那么所有可能事件x_{i},的自信息量I(x_{i})的加权平均定义为随机变量X的信息熵,简称,记为H(X)。即:
H(X)=\sum_{i=1}{n}p(x_{i})I(x_{i})=-\sum_{i=1}{n}p(x_{i})log_{2}p(x_{i})
为方便起见,约定p(x_{i})=0时,p(x_{i})log_{2}p(x_{i})=0

城市天气情况信息熵
城市/天气 晴天 阴天 雨天
太原 0.8 0.15 0.05
晋中 0.4 0.3 0.3

设事件A为太原天气情况的事件,事件B为晋中天气情况的事件。那么其各自的信息熵是多少呢?大家动手试一试吧!答案在文末。

中英文字符的信息量(汉语才是真正的言简意赅呢)

我们常用的汉字有2500+,那么每个汉字的自信息量是I(汉字出现) = ㏒2 2500 = 11.3bit。而英文字母有26个, I(英文字母) = ㏒2 26 = 4.7bit。

而相同的表达含义,总信息量相等。字数上的差异为,字数 = 总信息量/每个字的信息量。早上好—Good morning

汉语表达比英语更加简洁

案例答案

H(A) = 0.884

H(B) = 1.571

你可能感兴趣的:(信息技术与计算科学(二)信息的度量)