信息论——信息熵

信息熵

    • Q:信息是不是可以量化?
    • Q:不确定性与哪些因素有关?
        • 1. 事件可能的结果数
        • 2. 概率分布
    • Q:如何度量不确定性?
    • Q:那有什么函数能满足上面四个条件呢?
    • Q:什么是信息熵?
    • Q:熵的链式法则是什么?
    • Q:熵有哪些性质?
        • a. 熵的非负性(即$H(X)>0$)
        • b. 条件减少性(即$H(X) \geq H(X|Y)$)
        • c. 熵的独立界 (即 $H(X_{1},X_{2},\cdots,X_{n}) \leq \sum_{i=1}^{{n}}H(X_{i})$)
        • d. 最值性
        • e. 熵的凹性

Q:信息是不是可以量化?

“2022年中国队不可能会拿世界杯冠军” 信息量小,相当于废话。“谁能拿2022年世界杯冠军”信息量大,因为不确定性大。信息量与信息的不确定性有关。

Q:不确定性与哪些因素有关?

1. 事件可能的结果数

讨论太阳从哪升起,只有一个结果,无论传递任何信息都是没有信息量的。当可能结果数量比较大时,得到新信息才有潜力拥有大信息量。

2. 概率分布

单看可能结果数量不够,还要看初始的概率分布。例如一开始我就知道小明在电影院的有15*15个座位的A厅看电影。小明可以坐的位置有225个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是99%,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了。

Q:如何度量不确定性?

  1. 非负
  2. 可加
  3. 信息量跟概率有关系,信息量是连续依赖于概率的
  4. 信息量大小跟可能结果数量有关。假如每一个可能的结果出现的概率一样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具有更大的信息量,因为初始状态下不确定性更大

Q:那有什么函数能满足上面四个条件呢?

负的对数函数,也就是 − log ⁡ ( x ) -\log(x) log(x),底数取大于1的数保证这个函数是非负的就行。前面再随便乘个正常数也行。

a. 为什么不是正的?由于 x x x是小于等于 1 1 1的数, log ⁡ ( x ) \log(x) log(x)就小于等于 0 0 0了(满足1)
b. 假如 x x x是一个概率,那么 log ⁡ ( x ) \log(x) log(x)是连续依赖于 x x x的(满足3)
c. 假如有 n n n个可能结果,那么出现任意一个的概率是 1 n \frac{1}{n} n1,而 − l o g ( 1 n ) -log(\frac{1}{n}) log(n1) n n n的增函数(满足4)
d. 由于 − l o g ( x y ) = − l o g ( x ) − l o g ( y ) -log(xy) = -log(x)-log(y) log(xy)=log(x)log(y)(满足2)

Q:什么是信息熵?

信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。

H = − ∑ x ∈ U P ( x ) log ⁡ P ( x ) H=-\sum \limits_{x \in U}{P(x)\log P(x)} H=xUP(x)logP(x)

Q:熵的链式法则是什么?

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(YX)

证明

H ( X , Y ) = − ∑ x , y p ( x , y ) l o g   p ( x , y ) = − ∑ x , y p ( x , y ) l o g   ( p ( y ∣ x ) p ( x ) ) H(X,Y)=-\sum_{x,y}p(x,y)log\,p(x,y) =-\sum_{x,y}p(x,y)log\,(p(y|x)p(x)) H(X,Y)=x,yp(x,y)logp(x,y)=x,yp(x,y)log(p(yx)p(x))
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g   p ( y ∣ x ) − ∑ x , y p ( x , y ) l o g   p ( x ) H(X,Y)=-\sum_{x,y}p(x,y)log\,p(y|x)-\sum_{x,y}p(x,y)log\,p(x) H(X,Y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(x)
H ( X , Y ) = H ( Y ∣ X ) − ∑ x l o g   p ( x ) ∑ y p ( x , y ) H(X,Y)=H(Y|X)-\sum_{x}log\,p(x)\sum_{y}p(x,y) H(X,Y)=H(YX)xlogp(x)yp(x,y)
H ( X , Y ) = H ( Y ∣ X ) − ∑ x l o g   p ( x ) p ( x ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=H(Y|X)-\sum_{x}log\,p(x)p(x) =H(Y|X)+H(X) H(X,Y)=H(YX)xlogp(x)p(x)=H(YX)+H(X)

推广 H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y|Z)=H(X|Z)+H(Y|X,Z) H(X,YZ)=H(XZ)+H(YX,Z)
注意:熵只依赖于随机变量的分布,与随机变量取值无关。

Q:熵有哪些性质?

a. 熵的非负性(即 H ( X ) > 0 H(X)>0 H(X)>0

由熵的定义可知, H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) = ∑ x ∈ X p ( x ) log ⁡ 1 p ( x ) H(X)=-\sum_{x \in \mathcal{X}}^{}{p(x) \log p(x)}=\sum_{x \in \mathcal{X}}^{}{p(x)\log \frac{1}{p(x)}} H(X)=xXp(x)logp(x)=xXp(x)logp(x)1
由于 p ( x ) ∈ ( 0 , 1 ) p(x)\in (0, 1) p(x)(0,1) ,故 log ⁡ 1 p ( x ) > 0 \log\frac{1}{p(x)}>0 logp(x)1>0 ,从而 H ( X ) > 0 H(X)>0 H(X)>0

b. 条件减少性(即 H ( X ) ≥ H ( X ∣ Y ) H(X) \geq H(X|Y) H(X)H(XY)

由互信息的定义得: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) ≥ 0 ⇒ H ( X ) ≥ H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) \geq 0 \Rightarrow H(X) \geq H(X|Y) I(X;Y)=H(X)H(XY)0H(X)H(XY)
注意:这个式子是平均意义上成立的。当知道某个确切的事情 H(X|Y=y) 并不一定会减少信息量,有时候反而会增加信息量。例如,警察查案,如果获得了某个新的线索,却引出了更多的待解问题就带了新的信息量。

c. 熵的独立界 (即 H ( X 1 , X 2 , ⋯   , X n ) ≤ ∑ i = 1 n H ( X i ) H(X_{1},X_{2},\cdots,X_{n}) \leq \sum_{i=1}^{{n}}H(X_{i}) H(X1,X2,,Xn)i=1nH(Xi))

我们利用熵的链式法则有: H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1}) H(X1,X2,,Xn)=i=1nH(XiXi1,,X1)
然后利用条件减少性即可得到结果。

d. 最值性

即当随机变量 X 服从均匀分布时候,熵取得最大值。
利用相对熵的非负性进行证明:
u ( x ) = 1 ∣ X ∣ u(x)=\frac{1}{\left| \mathcal{X} \right|} u(x)=X1 ,其中 ∣ X ∣ \left| \mathcal{X} \right| X 表示为随机变量的取值集合的势(即集合的元素个数)
则对于任意的 p ( x ) p(x) p(x) ,它们的相对熵为:
D ( p ∣ ∣ u ) = ∑ x ∈ X p ( x ) l o g p ( x ) u ( x ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) − ∑ x ∈ X p ( x ) l o g 1 ∣ X ∣ D(p||u)= \sum_{x \in \mathcal{X}} p(x)log \frac{p(x)}{u(x)}=\sum_{x \in \mathcal{X}} p(x)\log p(x)-\sum_{x \in \mathcal{X}} p(x)log\frac{1}{\left| \mathcal{X} \right|} D(pu)=xXp(x)logu(x)p(x)=xXp(x)logp(x)xXp(x)logX1
= l o g ∣ X ∣ ∑ x ∈ X p ( x ) − ( − ∑ x ∈ X p ( x ) log ⁡ p ( x ) ) = l o g ∣ X ∣ − H ( X ) ≥ 0 = log \left| \mathcal{X} \right| \sum_{x \in \mathcal{X}} p(x)- \left( -\sum_{x \in \mathcal{X}} p(x)\log p(x) \right)=log \left| \mathcal{X} \right| -H(X) \geq 0 =logXxXp(x)(xXp(x)logp(x))=logXH(X)0
从而有 H ( X ) ≤ l o g ∣ X ∣ H(X) \leq log \left| \mathcal{X} \right| H(X)logX
熵的最值性,给我们的启示是,如果一个随机系统它是均匀分布的,那么要对其进行编码,则需要的编码长度最大。

e. 熵的凹性

设随机变量 X 1 , X 2 X_{1},X_{2} X1,X2 的取值来自于集合 X \mathcal{X} X ,且它们的分布函数分别为 p 1 ( x ) p_{1}(x) p1(x) p 2 ( x ) p_{2}(x) p2(x) ,对于随机变量 θ \theta θ ,其分布为:
θ = { 1 , 概 率 为 λ 2 , 概 率 为 1 − λ \theta = \begin{cases} 1, &概率为\lambda \\ 2, & 概率为1-\lambda \end{cases} θ={1,2,λ1λ
取随机变量 Z = X θ Z=X_{\theta} Z=Xθ,容易知道其分布为:
Z = λ p 1 ( x ) + ( 1 − λ ) p 2 ( x ) Z=\lambda p_{1}(x)+(1-\lambda)p_{2}(x) Z=λp1(x)+(1λ)p2(x)
利用熵的条件减少性有:
H ( Z ) ≥ H ( Z ∣ θ ) H(Z) \geq H(Z|\theta) H(Z)H(Zθ)
H ( λ p 1 + ( 1 − λ ) p 2 ) ≥ λ H ( p 1 ) + ( 1 − λ ) H ( p 2 ) H(\lambda p_{1}+(1-\lambda)p_{2}) \geq \lambda H(p_{1})+(1-\lambda)H\left(p_{2}\right) H(λp1+(1λ)p2)λH(p1)+(1λ)H(p2)
故证明了熵的凹性。由于熵有了凹性,故可以对熵函数进行优化。

你可能感兴趣的:(信息论——信息熵)