信息量与信息熵

信息量

  信息量是衡量信息多少的度量,通俗来说就是衡量一个事件发生的惊奇程度。事件发生的概率越低,该事件发生对应的惊奇程度越高。比如事件“天上下刀子了”就比事件“天上下雨了”更令人惊奇,因为前者的发生概率远远小于后者。

  设事件 x x x 的发生概率为 p ( x ) p(x) p(x) ,则传递该事件发生需要的最少比特信号位 (即信息量) 为 log ⁡ 2 1 p ( x ) = − log ⁡ 2 p ( x ) \log _2 \frac{1}{p(x)}=-\log _2 p(x) log2p(x)1=log2p(x)

  举个例子,假如有两个相互隔离的房间A、B,二者只能通过01信号传递信息。当A房间投掷了一个硬币时,我们至少需要使用 log ⁡ 2 2 \log _22 log22 个比特信号告诉B房间是正面朝上还是反面朝上。类似地,当A房间投掷了一个有8个面的骰子时,我们至少需要 log ⁡ 2 8 \log _28 log28个比特的信号来传递该信息。

参考:详解:信息量、信息熵、交叉熵、相对熵


信息熵

  信息熵用于衡量整个事件空间包含的平均信息量,即信息量的平均期望,等概率分布的随机变量的熵的计算可以表示为:
− log ⁡ 2 P ( x i ) -\log _2 P\left(x_i\right) log2P(xi)
那么对于不等概率的分布将如何计算呢?公式中展示出了加权的思想,即把每一个结果都看作等可能事件中的一个结果,按照其发生的概率加权求和

H ( X ) = ∑ i = 1 n P ( x i ) log ⁡ 2 1 P ( x i ) = − ∑ i = 1 n P ( x i ) log ⁡ 2 P ( x i ) \begin{aligned} H(X) & =\sum_{i=1}^n P\left(x_i\right) \log _2 \frac{1}{P\left(x_i\right)} \\ & =-\sum_{i=1}^n P\left(x_i\right) \log _2 P\left(x_i\right) \end{aligned} H(X)=i=1nP(xi)log2P(xi)1=i=1nP(xi)log2P(xi)

  分析一个问题,熵的值是怎么确定的呢?

  类似于质量、长度等物理量,信息熵同样作为物理量也需要有一个基本度量单位。类似于光年作为长度单位被定义为光行驶一年的长度,熵的基本单位被定义为等概率分布随机变量的不确定性,记作 b i t bit bit。也就是说抛一枚均匀的硬币,对于哪面朝上这一事件包含的不确定性的量是 1 b i t 1 bit 1bit的熵。

  信息量不等于信息熵,信息熵等于平均信息量


互信息与信息熵

  互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定度的削弱程度。互信息定义为:
I ( X ; Y ) = E [ I ( x , y ) ] = H ( X ) − H ( X ∣ Y ) I(X ; Y)=E[I(x, y)]=H(X)-H(X \mid Y) I(X;Y)=E[I(x,y)]=H(X)H(XY)

   Y Y Y 未知, X X X 的不确定度(熵)为 H ( X ) H(X) H(X)
   Y Y Y 已知, X X X 的不确定度变为 H ( X ∣ Y ) H(X \mid Y) H(XY)

  互信息 = 先验不确定性-后验不确定性 = 不确定性减少的量

  通信系统中若发端的符号为 X X X 收端的符号为 Y Y Y 。如果是一一对应信道 ,接收到 Y Y Y 后对 X X X 的不确定 、性将完全消除,即 H ( X ∣ Y ) = 0 H(X \mid Y)=0 H(XY)=0 ,一般情况 H ( X ∣ Y ) < H ( X ) H(X \mid Y)H(XY)<H(X) ,即了解 Y Y Y 后对 X X X 的不确定度将减少。
  通过信道传输消除了一些不确定性,获得了一定的信息,故 0 ≤ I ( X ; Y ) ≤ H ( X ) 0 \leq I(X ; Y) \leq H(X) 0I(X;Y)H(X)

参考:互信息

你可能感兴趣的:(智简网络&语义通信,无线通信,语义通信,信道,信息论)