“2022年中国队不可能会拿世界杯冠军” 信息量小,相当于废话。“谁能拿2022年世界杯冠军”信息量大,因为不确定性大。信息量与信息的不确定性有关。
讨论太阳从哪升起,只有一个结果,无论传递任何信息都是没有信息量的。当可能结果数量比较大时,得到新信息才有潜力拥有大信息量。
单看可能结果数量不够,还要看初始的概率分布。例如一开始我就知道小明在电影院的有15*15个座位的A厅看电影。小明可以坐的位置有225个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是99%,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了。
负的对数函数,也就是 − log ( x ) -\log(x) −log(x),底数取大于1的数保证这个函数是非负的就行。前面再随便乘个正常数也行。
a. 为什么不是正的?由于 x x x是小于等于 1 1 1的数, log ( x ) \log(x) log(x)就小于等于 0 0 0了(满足1)
b. 假如 x x x是一个概率,那么 log ( x ) \log(x) log(x)是连续依赖于 x x x的(满足3)
c. 假如有 n n n个可能结果,那么出现任意一个的概率是 1 n \frac{1}{n} n1,而 − l o g ( 1 n ) -log(\frac{1}{n}) −log(n1)是 n n n的增函数(满足4)
d. 由于 − l o g ( x y ) = − l o g ( x ) − l o g ( y ) -log(xy) = -log(x)-log(y) −log(xy)=−log(x)−log(y)(满足2)
信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。
H = − ∑ x ∈ U P ( x ) log P ( x ) H=-\sum \limits_{x \in U}{P(x)\log P(x)} H=−x∈U∑P(x)logP(x)
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X)
证明:
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g   p ( x , y ) = − ∑ x , y p ( x , y ) l o g   ( p ( y ∣ x ) p ( x ) ) H(X,Y)=-\sum_{x,y}p(x,y)log\,p(x,y) =-\sum_{x,y}p(x,y)log\,(p(y|x)p(x)) H(X,Y)=−∑x,yp(x,y)logp(x,y)=−∑x,yp(x,y)log(p(y∣x)p(x))
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g   p ( y ∣ x ) − ∑ x , y p ( x , y ) l o g   p ( x ) H(X,Y)=-\sum_{x,y}p(x,y)log\,p(y|x)-\sum_{x,y}p(x,y)log\,p(x) H(X,Y)=−∑x,yp(x,y)logp(y∣x)−∑x,yp(x,y)logp(x)
H ( X , Y ) = H ( Y ∣ X ) − ∑ x l o g   p ( x ) ∑ y p ( x , y ) H(X,Y)=H(Y|X)-\sum_{x}log\,p(x)\sum_{y}p(x,y) H(X,Y)=H(Y∣X)−∑xlogp(x)∑yp(x,y)
H ( X , Y ) = H ( Y ∣ X ) − ∑ x l o g   p ( x ) p ( x ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=H(Y|X)-\sum_{x}log\,p(x)p(x) =H(Y|X)+H(X) H(X,Y)=H(Y∣X)−∑xlogp(x)p(x)=H(Y∣X)+H(X)
推广: H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y|Z)=H(X|Z)+H(Y|X,Z) H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
注意:熵只依赖于随机变量的分布,与随机变量取值无关。
由熵的定义可知, H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) = ∑ x ∈ X p ( x ) log 1 p ( x ) H(X)=-\sum_{x \in \mathcal{X}}^{}{p(x) \log p(x)}=\sum_{x \in \mathcal{X}}^{}{p(x)\log \frac{1}{p(x)}} H(X)=−∑x∈Xp(x)logp(x)=∑x∈Xp(x)logp(x)1。
由于 p ( x ) ∈ ( 0 , 1 ) p(x)\in (0, 1) p(x)∈(0,1) ,故 log 1 p ( x ) > 0 \log\frac{1}{p(x)}>0 logp(x)1>0 ,从而 H ( X ) > 0 H(X)>0 H(X)>0。
由互信息的定义得: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) ≥ 0 ⇒ H ( X ) ≥ H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) \geq 0 \Rightarrow H(X) \geq H(X|Y) I(X;Y)=H(X)−H(X∣Y)≥0⇒H(X)≥H(X∣Y)
注意:这个式子是平均意义上成立的。当知道某个确切的事情 H(X|Y=y) 并不一定会减少信息量,有时候反而会增加信息量。例如,警察查案,如果获得了某个新的线索,却引出了更多的待解问题就带了新的信息量。
我们利用熵的链式法则有: H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1}) H(X1,X2,⋯,Xn)=∑i=1nH(Xi∣Xi−1,⋯,X1)
然后利用条件减少性即可得到结果。
即当随机变量 X 服从均匀分布时候,熵取得最大值。
利用相对熵的非负性进行证明:
设 u ( x ) = 1 ∣ X ∣ u(x)=\frac{1}{\left| \mathcal{X} \right|} u(x)=∣X∣1 ,其中 ∣ X ∣ \left| \mathcal{X} \right| ∣X∣ 表示为随机变量的取值集合的势(即集合的元素个数)
则对于任意的 p ( x ) p(x) p(x) ,它们的相对熵为:
D ( p ∣ ∣ u ) = ∑ x ∈ X p ( x ) l o g p ( x ) u ( x ) = ∑ x ∈ X p ( x ) log p ( x ) − ∑ x ∈ X p ( x ) l o g 1 ∣ X ∣ D(p||u)= \sum_{x \in \mathcal{X}} p(x)log \frac{p(x)}{u(x)}=\sum_{x \in \mathcal{X}} p(x)\log p(x)-\sum_{x \in \mathcal{X}} p(x)log\frac{1}{\left| \mathcal{X} \right|} D(p∣∣u)=∑x∈Xp(x)logu(x)p(x)=∑x∈Xp(x)logp(x)−∑x∈Xp(x)log∣X∣1
= l o g ∣ X ∣ ∑ x ∈ X p ( x ) − ( − ∑ x ∈ X p ( x ) log p ( x ) ) = l o g ∣ X ∣ − H ( X ) ≥ 0 = log \left| \mathcal{X} \right| \sum_{x \in \mathcal{X}} p(x)- \left( -\sum_{x \in \mathcal{X}} p(x)\log p(x) \right)=log \left| \mathcal{X} \right| -H(X) \geq 0 =log∣X∣∑x∈Xp(x)−(−∑x∈Xp(x)logp(x))=log∣X∣−H(X)≥0
从而有 H ( X ) ≤ l o g ∣ X ∣ H(X) \leq log \left| \mathcal{X} \right| H(X)≤log∣X∣
熵的最值性,给我们的启示是,如果一个随机系统它是均匀分布的,那么要对其进行编码,则需要的编码长度最大。
设随机变量 X 1 , X 2 X_{1},X_{2} X1,X2 的取值来自于集合 X \mathcal{X} X ,且它们的分布函数分别为 p 1 ( x ) p_{1}(x) p1(x) 、 p 2 ( x ) p_{2}(x) p2(x) ,对于随机变量 θ \theta θ ,其分布为:
θ = { 1 , 概 率 为 λ 2 , 概 率 为 1 − λ \theta = \begin{cases} 1, &概率为\lambda \\ 2, & 概率为1-\lambda \end{cases} θ={1,2,概率为λ概率为1−λ
取随机变量 Z = X θ Z=X_{\theta} Z=Xθ,容易知道其分布为:
Z = λ p 1 ( x ) + ( 1 − λ ) p 2 ( x ) Z=\lambda p_{1}(x)+(1-\lambda)p_{2}(x) Z=λp1(x)+(1−λ)p2(x)
利用熵的条件减少性有:
H ( Z ) ≥ H ( Z ∣ θ ) H(Z) \geq H(Z|\theta) H(Z)≥H(Z∣θ)
即 H ( λ p 1 + ( 1 − λ ) p 2 ) ≥ λ H ( p 1 ) + ( 1 − λ ) H ( p 2 ) H(\lambda p_{1}+(1-\lambda)p_{2}) \geq \lambda H(p_{1})+(1-\lambda)H\left(p_{2}\right) H(λp1+(1−λ)p2)≥λH(p1)+(1−λ)H(p2)
故证明了熵的凹性。由于熵有了凹性,故可以对熵函数进行优化。