一个随机事件 x x x的自信息量1定义为:
I ( x ) = log 1 p ( x ) I(x)=\log\frac{1}{p(x)} I(x)=logp(x)1
注意,在信息论中, log \log log函数的底通常设置为2,此时,自信息量的单位为比特(bit);在机器学习中, log \log log函数的底通常设置为自然常数e,此时,自信息量的单位为奈特(nat)。
需要从以下两方面来理解自信息量:
举例说明,“中彩票”事件的概率极小,但是一旦中了彩票,“中彩票”事件的自信息量很大,也就是说,“中彩票”会获得极大的信息量(即收益)。另一方面,“中彩票”事件的概率很低,自信息量很大,意味着“中彩票”事件发生的不确定性也很大。
- 发生概率越高的事情,具有的自信息量越少
- 发生概率越低的事情,具有的自信息量越多
一个随机变量 X X X的信息熵2定义为:
\begin{align*}
H(X) &= \sum_{x_i\in X}p(x_i)I(x_i)\
&= \sum_{x_i\in X}p(x_i)\log\frac{1}{p(x_i)}.
\end{align*}
简记为: H ( X ) = − ∑ x p ( x ) log p ( x ) . H(X)=-\sum_{x}p(x)\log p(x). H(X)=−x∑p(x)logp(x).
信息熵的单位与自信息量一样。一个随机变量 X X X可以有多种取值可能,信息熵是随机变量 X X X所有可能情况的自信息量的期望。信息熵 H ( X ) H(X) H(X)表征了随机变量 X X X所有情况下的平均不确定度。
- 不确定度越大,信息量越大
- 不确定度越小,信息量越小
当随机变量 X X X所有取值的概率相等时,即 p ( x i ) p(x_i) p(xi)的概率都相等时,信息熵取最大值,随机变量具有最大的不确定性。例如,情景一:买彩票中奖和不中奖的概率都是 0.5 0.5 0.5时,此时买彩票是否中奖的不确定性最大。情景二:真实情况中,不中奖的概率远远大于中奖的概率,此时的不确定性要小于情景一,因为几乎能确定为不中奖。
例1. 根据经验判断,买彩票中奖的概率是 80 % 80\% 80%,不中奖的概率是 20 % 20\% 20%,求买彩票的信息熵。
解: 买彩票的概率空间为:
( X P ) = ( x 1 x 2 0.8 0.2 ) \binom{X}{P}=\begin{pmatrix} x_{1} &x_{2} \\ 0.8 & 0.2 \end{pmatrix} (PX)=(x10.8x20.2)
其中, x 1 x_{1} x1表示买的彩票没奖, x 2 x_{2} x2表示买的彩票有奖。
由 I ( x 1 ) < I ( x 2 ) I(x_1)<I(x_2) I(x1)<I(x2)可知,彩票有奖的不确定性要大于彩票没奖。
买彩票的信息熵为:
H ( X ) = p ( x 1 ) I ( x 1 ) + p ( x 2 ) I ( x 2 ) = 0.8 ∗ 0.322 + 0.2 ∗ 2.322 = 0.722 bit H(X)=p(x_1)I(x_1)+p(x_2)I(x_2)=0.8*0.322+0.2*2.322=0.722~\text{bit} H(X)=p(x1)I(x1)+p(x2)I(x2)=0.8∗0.322+0.2∗2.322=0.722 bit
**结果分析:**由最大熵定理可知,信息熵 H ( X ) H(X) H(X)的最大值为 H ( X ) max = − log 1 / 2 = 1 H(X)_{\max}=-\log 1/2=1 H(X)max=−log1/2=1。例 1 1 1中 H ( X ) H(X) H(X)小于1比特,意味着不确定性减少,带来的信息量也减少。也就是说,先验经验(买彩票大概率不中奖)减少了不确定性。
随机变量 X X X和 Y Y Y的联合熵定义为:
\begin{align*}
H(X, Y)&=\sum_{x_i\in X}\sum_{y_i\in Y}p(x_i, y_i)I(x_i, y_i)\
&=\sum_{x_i\in X}\sum_{y_i\in Y}p(x_i, y_i)log\frac{1}{p(x_i, y_i)}
\end{align*}
简记为: H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) H(X, Y)=-\sum_{x,y}p(x,y)\log p(x,y) H(X,Y)=−x,y∑p(x,y)logp(x,y)
**联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示随机变量 X X X和 Y Y Y一起发生时的信息熵,即 X X X和 Y Y Y一起发生时的确定度。**通俗地讲,联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示 X X X和 Y Y Y一起发生时,产生的信息量。
随机变量 X X X和 Y Y Y的**条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)**定义为:
H ( X ∣ Y ) = ∑ y j ∈ Y p ( y j ) H ( X ∣ Y = y j ) H(X|Y)=\sum_{y_j\in Y}p(y_j)H(X|Y=y_j) H(X∣Y)=yj∈Y∑p(yj)H(X∣Y=yj)
**条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)表示已知随机变量 Y Y Y的情况下,随机变量 X X X的信息熵,即在 Y Y Y发生的前提下, X X X发生后新带来的不确定度。**通俗地讲,条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)表示在 Y Y Y发生的前提下, X X X发生新带来的信息量。
具体使用形式为:
\begin{align*}
H(X|Y) &= \sum_{y_j\in Y}p(y_j)H(X|Y=y_j) \
&= -\sum_{y_j\in Y}p(y_j)\sum_{x_i\in X}p(x_i|y_j)\log p(x_i|y_j)\
&= -\sum_{y_j\in Y}\sum_{x_i\in X}p(y_j)p(x_i|y_j)\log p(x_i|y_j)\
&= -\sum_{x_i,y_j}p(x_i,y_j)\log p(x_i|y_j)
\end{align*}
简记为: H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log p ( x ∣ y ) H(X|Y)=-\sum_{x,y}p(x,y)\log p(x|y) H(X∣Y)=−x,y∑p(x,y)logp(x∣y)
条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)与联合熵 H ( X , Y ) H(X,Y) H(X,Y)的关系为:
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(X∣Y)=H(X,Y)−H(Y)
推导过程如下:
\begin{align*}
H(X|Y) &= -\sum_{x,y}p(x,y)\log p(x|y)\
&= -\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\
&= -\sum_{x,y}p(x,y)\log p(x,y)+\sum_{x,y}p(x,y)\log p(y)\
&= -\sum_{x,y}p(x,y)\log p(x,y)+\sum_{y}(\sum_{x}p(x,y))\log p(y)\
&= -\sum_{x,y}p(x,y)\log p(x,y)+\sum_{y}p(y)\log p(y)\
&= H(X,Y)-H(Y)
\end{align*}
随机变量 X X X和 Y Y Y的**条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)**定义为:
H ( Y ∣ X ) = ∑ x i ∈ X p ( x i ) H ( Y ∣ X = x i ) H(Y|X)=\sum_{x_i\in X}p(x_i)H(Y|X=x_i) H(Y∣X)=xi∈X∑p(xi)H(Y∣X=xi)
**条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示已知随机变量 X X X的情况下,随机变量 Y Y Y的信息熵,即在 X X X发生的前提下, Y Y Y发生后新带来的不确定度。**通俗地讲,条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示在 X X X发生的前提下, Y Y Y发生新带来的信息量。
具体使用形式为:
\begin{align*}
H(Y|X) &= \sum_{x_i\in X}p(x_i)H(Y|X=x_i) \
&= -\sum_{x_i\in X}p(x_i)\sum_{y_j\in Y}p(y_j|x_i)\log p(y_j|x_i)\
&= -\sum_{x_i\in X}\sum_{y_j\in Y}p(x_i)p(y_j|x_i)\log p(y_j|x_i)\
&= -\sum_{x_i,y_j}p(x_i,y_j)\log p(y_j|x_i)
\end{align*}
简记为: H ( Y ∣ X ) = − ∑ x , y p ( x , y ) log p ( y ∣ x ) H(Y|X)=-\sum_{x,y}p(x,y)\log p(y|x) H(Y∣X)=−x,y∑p(x,y)logp(y∣x)
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)与联合熵 H ( X , Y ) H(X,Y) H(X,Y)的关系为:
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X)
推导过程见 H ( X ∣ Y ) H(X|Y) H(X∣Y)。
互信息量定义为后验概率与先验概率比值的对数:
I ( x i ; y j ) = log p ( x i ∣ y j ) p ( x i ) I(x_i;y_j)=\log \frac{p(x_i|y_j)}{p(x_i)} I(xi;yj)=logp(xi)p(xi∣yj)
互信息(平均互信息量):
I ( X ; Y ) = ∑ x i ∈ X ∑ y j ∈ Y p ( x i , y j ) log p ( x i ∣ y j ) p ( x i ) I(X;Y)=\sum_{x_i\in X}\sum_{y_j \in Y}p(x_i,y_j)\log \frac{p(x_i|y_j)}{p(x_i)} I(X;Y)=xi∈X∑yj∈Y∑p(xi,yj)logp(xi)p(xi∣yj)
简记为:
I ( X ; Y ) = ∑ x , y p ( x , y ) log p ( x ∣ y ) p ( x ) I(X;Y)=\sum_{x,y}p(x,y)\log \frac{p(x|y)}{p(x)} I(X;Y)=x,y∑p(x,y)logp(x)p(x∣y)
互信息具有以下性质:
\begin{align*}
I(X;Y) &= H(X)-H(X|Y) \
&= H(Y)-H(Y|X)\
&= I(Y;X)
\end{align*}
互信息的理解:
H ( X ) H(X) H(X)是 X X X的不确定度, H ( X ∣ Y ) H(X|Y) H(X∣Y)是 Y Y Y已知时是 X X X的不确定度,则 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)−H(X∣Y)表示 Y Y Y已知使得 X X X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y)。 Y Y Y已知时 X X X的不确定度为 H ( X ∣ Y ) = H ( X ) − I ( X ; Y ) H(X|Y)=H(X)-I(X;Y) H(X∣Y)=H(X)−I(X;Y)。
名称 | 公式 | 含义 |
---|---|---|
熵 H ( X ) H(X) H(X) | H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H(X)=-\sum_{x\in X}p(x)\log p(x) H(X)=−∑x∈Xp(x)logp(x) | 熵 H ( X ) H(X) H(X)表示 X X X的不确定度 |
联合熵 H ( X , Y ) H(X, Y) H(X,Y) | H ( X , Y ) = − ∑ x , y p ( x , y ) log p ( x , y ) H(X, Y)=-\sum_{x,y}p(x,y)\log p(x,y) H(X,Y)=−∑x,yp(x,y)logp(x,y) | 联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示 X X X和 Y Y Y一起发生的不确定度 |
条件熵$H(Y | X)$ | $H(Y |
条件熵$H(X | Y)$ | $H(X |
互信息 I ( X ; Y ) I(X;Y) I(X;Y) | \begin{align*} | |
I(X;Y) &= H(X)-H(X | Y) \ | |
I(Y;X) &= H(Y)-H(Y | X)\ |
I(X;Y) &= I(Y;X)
\end{align*}| 互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示 Y Y Y发生后, X X X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y)|
曹雪虹, 张宗橙. 信息论与编码[J]. 2009. ↩︎
Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(4):379-423. ↩︎