联合熵就是度量一个联合分布的随机系统的不确定度,下面给出两个随机变量的联合熵的定义:
分布为 p ( x , y ) p(x,y) p(x,y) 的一对随机变量 ( X , Y ) (X,Y) (X,Y) ,其联合熵定义为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) = E [ log 1 p ( x , y ) ] H(X,Y)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{} {p(x,y)\log p(x,y)}=E\left[ \log\frac{1}{p(x,y)} \right] H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=E[logp(x,y)1]
与信息熵一样也是一个数学期望
联合熵的物理意义是:观察一个多个随机变量的随机系统获得的信息量。
为了进一步剖析联合熵,我们对其的进行数学推导如下:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x ) p ( y ∣ x ) H(X,Y)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}{p(x,y)\log p(x,y)}=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)p(y|x) H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−∑x∈X∑y∈Yp(x,y)logp(x)p(y∣x)
= − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y ∣ x ) =-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x) =−∑x∈X∑y∈Yp(x,y)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y∣x)
= − ∑ x ∈ X p ( x ) log p ( x ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y ∣ x ) =-\sum_{x \in \mathcal{X}}^{} p(x)\log p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x) =−∑x∈Xp(x)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y∣x)
= H ( X ) + H ( Y ∣ X ) =H(X)+H(Y|X) =H(X)+H(Y∣X)
注: − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x ) -\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x) −∑x∈X∑y∈Yp(x,y)logp(x) 通过边缘化 y y y 得到 − ∑ x ∈ X p ( x ) log p ( x ) -\sum_{x \in \mathcal{X}}^{} p(x)\log p(x) −∑x∈Xp(x)logp(x)
其中,条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X) 由 − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( y ∣ x ) -\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x) −∑x∈X∑y∈Yp(x,y)logp(y∣x) 所定义,其物理意义就是,在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。
继续讨论联合熵,对于式子 H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X) 所表达的物理含义是,对一个两个随机变量的随机系统,我们可以先观察一个随机变量获取信息量,观察完后,我们可以在拥有这个信息量的基础上观察第二个随机变量的信息量。其那么先观察哪一个随机变量对信息量的获取有影响吗?利用概率论的知识,我们可以轻易得出: H ( X , Y ) = H ( Y ) + H ( X ∣ Y ) H(X,Y)=H(Y)+H(X|Y) H(X,Y)=H(Y)+H(X∣Y)。也就是说,先观察谁,对信息量都不会有影响,这是非常符合直觉的。
基于上述的讨论,我们不禁会问,如果有n个随机变量处于一个随机系统中,那么我们获取其联合熵也是无关观察先后吗?答案是肯定的。为了说明原因,我们给出熵的链式法则:
设随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,⋯,Xn 服从 p ( x 1 , x 2 , ⋯   , x n ) p(x_{1},x_{2},\cdots,x_{n}) p(x1,x2,⋯,xn) ,则有:
H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1}) H(X1,X2,⋯,Xn)=∑i=1nH(Xi∣Xi−1,⋯,X1)
我们可以利用数学推导证明:
H ( X 1 , X 2 , ⋯   , X n ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) log p ( x 1 , ⋯   , x n ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) log p ( x 1 , ⋯   , x n − 1 ) p ( x n ∣ x 1 , ⋯   , x n − 1 ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) log p ( x 1 , ⋯   , x n − 2 ) p ( x n − 1 ∣ x 1 , ⋯   , x n − 2 ) p ( x n ∣ x 1 , ⋯   , x n − 1 ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) l o g ∏ i = 1 n p ( x i ∣ x i − 1 , ⋯   , x 1 ) = − ∑ x 1 , ⋯   , x n ∈ X n p ( x 1 , ⋯   , x n ) ∑ i = 1 n log p ( x i ∣ x i − 1 , ⋯   , x 1 ) = − ∑ i = 1 n ∑ x 1 , ⋯   , x i ∈ X i p ( x 1 , ⋯   , x i ) log p ( x i ∣ x i − 1 , ⋯   , x 1 ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H(X_{1},X_{2},\cdots,X_{n})=- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n-1})p(x_{n}|x_{1},\cdots,x_{n-1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n-2})p(x_{n-1}|x_{1},\cdots,x_{n-2})p(x_{n}|x_{1},\cdots,x_{n-1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})log\prod_{i=1}^{n}p(x_{i}|x_{i-1},\cdots,x_{1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n}) \sum_{i=1}^{n} \log p(x_{i}|x_{i-1},\cdots,x_{1}) =-\sum_{i=1}^{n} \sum_{x_{1},\cdots,x_{i}\in \mathcal{X}^{i}}^{{}}p(x_{1},\cdots,x_{i}) \log p(x_{i}|x_{i-1},\cdots,x_{1}) = \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1}) H(X1,X2,⋯,Xn)=−∑x1,⋯,xn∈Xnp(x1,⋯,xn)logp(x1,⋯,xn)=−∑x1,⋯,xn∈Xnp(x1,⋯,xn)logp(x1,⋯,xn−1)p(xn∣x1,⋯,xn−1)=−∑x1,⋯,xn∈Xnp(x1,⋯,xn)logp(x1,⋯,xn−2)p(xn−1∣x1,⋯,xn−2)p(xn∣x1,⋯,xn−1)=−∑x1,⋯,xn∈Xnp(x1,⋯,xn)log∏i=1np(xi∣xi−1,⋯,x1)=−∑x1,⋯,xn∈Xnp(x1,⋯,xn)∑i=1nlogp(xi∣xi−1,⋯,x1)=−∑i=1n∑x1,⋯,xi∈Xip(x1,⋯,xi)logp(xi∣xi−1,⋯,x1)=∑i=1nH(Xi∣Xi−1,⋯,X1)
注: − ∑ i = 1 n ∑ x 1 , ⋯   , x i ∈ X i p ( x 1 , ⋯   , x i ) log p ( x i ∣ x i − 1 , ⋯   , x 1 ) -\sum_{i=1}^{n} \sum_{x_{1},\cdots,x_{i}\in \mathcal{X}^{i}}^{{}}p(x_{1},\cdots,x_{i}) \log p(x_{i}|x_{i-1},\cdots,x_{1}) −∑i=1n∑x1,⋯,xi∈Xip(x1,⋯,xi)logp(xi∣xi−1,⋯,x1) 这一步变换也是使用了边缘化。
从链式法则,我们可以更进一步得到,如果随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots,X_{n} X1,X2,⋯,Xn 是独立的,那么联合熵则可以表示为:
H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ) H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}) H(X1,X2,⋯,Xn)=∑i=1nH(Xi)