信息论——联合熵

联合熵

    • Q:什么是联合熵?
    • Q:联合熵的物理意义是什么?

Q:什么是联合熵?

联合熵就是度量一个联合分布的随机系统的不确定度,下面给出两个随机变量的联合熵的定义:
分布为 p ( x , y ) p(x,y) p(x,y) 的一对随机变量 ( X , Y ) (X,Y) (X,Y) ,其联合熵定义为:

H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) = E [ log ⁡ 1 p ( x , y ) ] H(X,Y)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{} {p(x,y)\log p(x,y)}=E\left[ \log\frac{1}{p(x,y)} \right] H(X,Y)=xXyYp(x,y)logp(x,y)=E[logp(x,y)1]

与信息熵一样也是一个数学期望

Q:联合熵的物理意义是什么?

联合熵的物理意义是:观察一个多个随机变量的随机系统获得的信息量。

为了进一步剖析联合熵,我们对其的进行数学推导如下:

H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ) p ( y ∣ x ) H(X,Y)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}{p(x,y)\log p(x,y)}=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)p(y|x) H(X,Y)=xXyYp(x,y)logp(x,y)=xXyYp(x,y)logp(x)p(yx)

= − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ∣ x ) =-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x) =xXyYp(x,y)logp(x)xXyYp(x,y)logp(yx)

= − ∑ x ∈ X p ( x ) log ⁡ p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ∣ x ) =-\sum_{x \in \mathcal{X}}^{} p(x)\log p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x) =xXp(x)logp(x)xXyYp(x,y)logp(yx)

= H ( X ) + H ( Y ∣ X ) =H(X)+H(Y|X) =H(X)+H(YX)

− ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ) -\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x) xXyYp(x,y)logp(x) 通过边缘化 y y y 得到 − ∑ x ∈ X p ( x ) log ⁡ p ( x ) -\sum_{x \in \mathcal{X}}^{} p(x)\log p(x) xXp(x)logp(x)

其中,条件熵 H ( Y ∣ X ) H(Y|X) H(YX) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ∣ x ) -\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x) xXyYp(x,y)logp(yx) 所定义,其物理意义就是,在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。

继续讨论联合熵,对于式子 H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(YX) 所表达的物理含义是,对一个两个随机变量的随机系统,我们可以先观察一个随机变量获取信息量,观察完后,我们可以在拥有这个信息量的基础上观察第二个随机变量的信息量。其那么先观察哪一个随机变量对信息量的获取有影响吗?利用概率论的知识,我们可以轻易得出: H ( X , Y ) = H ( Y ) + H ( X ∣ Y ) H(X,Y)=H(Y)+H(X|Y) H(X,Y)=H(Y)+H(XY)。也就是说,先观察谁,对信息量都不会有影响,这是非常符合直觉的。

基于上述的讨论,我们不禁会问,如果有n个随机变量处于一个随机系统中,那么我们获取其联合熵也是无关观察先后吗?答案是肯定的。为了说明原因,我们给出熵的链式法则:

设随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,,Xn 服从 p ( x 1 , x 2 , ⋯   , x n ) p(x_{1},x_{2},\cdots,x_{n}) p(x1,x2,,xn) ,则有:
H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1}) H(X1,X2,,Xn)=i=1nH(XiXi1,,X1)
我们可以利用数学推导证明:

H ( X 1 , X 2 , ⋯   , X n ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) log ⁡ p ( x 1 , ⋯   , x n ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) log ⁡ p ( x 1 , ⋯   , x n − 1 ) p ( x n ∣ x 1 , ⋯   , x n − 1 ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) log ⁡ p ( x 1 , ⋯   , x n − 2 ) p ( x n − 1 ∣ x 1 , ⋯   , x n − 2 ) p ( x n ∣ x 1 , ⋯   , x n − 1 ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) l o g ∏ i = 1 n p ( x i ∣ x i − 1 , ⋯   , x 1 ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) ∑ i = 1 n log ⁡ p ( x i ∣ x i − 1 , ⋯   , x 1 ) = − ∑ i = 1 n ∑ x 1 , ⋯   , x i ∈ X i p ( x 1 , ⋯   , x i ) log ⁡ p ( x i ∣ x i − 1 , ⋯   , x 1 ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_{1},X_{2},\cdots,X_{n})=- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n-1})p(x_{n}|x_{1},\cdots,x_{n-1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n-2})p(x_{n-1}|x_{1},\cdots,x_{n-2})p(x_{n}|x_{1},\cdots,x_{n-1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})log\prod_{i=1}^{n}p(x_{i}|x_{i-1},\cdots,x_{1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n}) \sum_{i=1}^{n} \log p(x_{i}|x_{i-1},\cdots,x_{1}) =-\sum_{i=1}^{n} \sum_{x_{1},\cdots,x_{i}\in \mathcal{X}^{i}}^{{}}p(x_{1},\cdots,x_{i}) \log p(x_{i}|x_{i-1},\cdots,x_{1}) = \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1}) H(X1,X2,,Xn)=x1,,xnXnp(x1,,xn)logp(x1,,xn)=x1,,xnXnp(x1,,xn)logp(x1,,xn1)p(xnx1,,xn1)=x1,,xnXnp(x1,,xn)logp(x1,,xn2)p(xn1x1,,xn2)p(xnx1,,xn1)=x1,,xnXnp(x1,,xn)logi=1np(xixi1,,x1)=x1,,xnXnp(x1,,xn)i=1nlogp(xixi1,,x1)=i=1nx1,,xiXip(x1,,xi)logp(xixi1,,x1)=i=1nH(XiXi1,,X1)

注: − ∑ i = 1 n ∑ x 1 , ⋯   , x i ∈ X i p ( x 1 , ⋯   , x i ) log ⁡ p ( x i ∣ x i − 1 , ⋯   , x 1 ) -\sum_{i=1}^{n} \sum_{x_{1},\cdots,x_{i}\in \mathcal{X}^{i}}^{{}}p(x_{1},\cdots,x_{i}) \log p(x_{i}|x_{i-1},\cdots,x_{1}) i=1nx1,,xiXip(x1,,xi)logp(xixi1,,x1) 这一步变换也是使用了边缘化。

从链式法则,我们可以更进一步得到,如果随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,,Xn 是独立的,那么联合熵则可以表示为:

H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ) H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}) H(X1,X2,,Xn)=i=1nH(Xi)

你可能感兴趣的:(信息论——联合熵)