在不同的《信息论》教材中,有关信道对称性的描述并不统一,这为学习对称性信道的信道容量计算方法造成的一定障碍。因此,本文在文章的开篇部分将对本文中所描述的三种具有对称性的信道进行严格定义,以减小文章出现歧义的概率。
Symmetric Channel:
对称信道(Symmetric Channel)是最严格的对称性信道,该信道要求:
- 对于任意输入符号,其转移概率均为第一个输入符号转移概率的置换;即:
∀ x t ∈ X , ∃ E = ∏ E i j , s . t . p ⃗ ( y ∣ x t ) = p ⃗ ( y ∣ x 1 ) E \forall x_t\in X, \quad\exist \mathbf{E} = \prod \mathbf{E_{ij}},\quad s.t.\;\vec{p}(y|x_t) = \vec{p}(y|x_1)\mathbf{E} ∀xt∈X,∃E=∏Eij,s.t.p(y∣xt)=p(y∣x1)E
其中 E i j \mathbf{E_{ij}} Eij是初等置换矩阵, p ⃗ ( y ∣ x t ) \vec{p}(y|x_t) p(y∣xt)是第 t t t个输入符号对应的转移概率向量,该向量是转移概率矩阵中的第 t t t行。- 对于任意输出符号,其转移概率均为第一个输出符号转移概率的置换;即:
∀ y t ∈ Y , ∃ E = ∏ E i j , s . t . p ⃗ ( y t ∣ x ) = E p ⃗ ( y 1 ∣ x ) \forall y_t\in Y, \quad\exist \mathbf{E} = \prod \mathbf{E_{ij}},\quad s.t.\;\vec{p}(y_t|x) = \mathbf{E}\vec{p}(y_1|x) ∀yt∈Y,∃E=∏Eij,s.t.p(yt∣x)=Ep(y1∣x)
其中 p ⃗ ( y t ∣ x ) \vec{p}(y_t|x) p(yt∣x)是第 t t t个输出符号对应的转移概率向量,该向量是转移概率矩阵中的第 t t t列。
从信道矩阵观察,对称信道的任意一行的元素都完全相同,只是顺序发生了改变;任意一列也有相同的性质。
Wealky Symmetric Channel:
弱对称信道(Weakly Symmetric Channel)是对称信道的扩展,对称信道是弱对称信道的特例。相比对称信道,弱对称信道的条件约束更少,但性质却与对称信道基本相同。该信道要求:
- 对于任意输入符号,其转移概率均为第一个输入符号转移概率的置换;即:
∀ x t ∈ X , ∃ E = ∏ E i j , s . t . p ⃗ ( y ∣ x t ) = p ⃗ ( y ∣ x 1 ) E \forall x_t\in X, \quad\exist \mathbf{E} = \prod \mathbf{E_{ij}},\quad s.t.\;\vec{p}(y|x_t) = \vec{p}(y|x_1)\mathbf{E} ∀xt∈X,∃E=∏Eij,s.t.p(y∣xt)=p(y∣x1)E
其中 E i j \mathbf{E_{ij}} Eij是初等置换矩阵, p ⃗ ( y ∣ x t ) \vec{p}(y|x_t) p(y∣xt)是第 t t t个输入符号对应的转移概率向量,该向量是转移概率矩阵中的第 t t t行。- 对于任意输出符号,其转移概率之和为常数;即:
∀ y t ∈ Y , ∑ x i ∈ X p ( y t ∣ x i ) = C \forall y_t \in Y, \quad \sum_{x_i\in X}p(y_t|x_i) = C ∀yt∈Y,xi∈X∑p(yt∣xi)=C
Quasi Symmetric Channel:
准对称信道(半对称信道,Quasi Symmetric Channel)是约束最弱的对称信道,对称信道与弱对称信道均是准对称信道的特例。该信道要求:
存在一种分块方式, s . t . P = [ p 1 , p 2 , ⋯ ] s.t.\;\mathbf{P} =[\mathbf{p_1},\mathbf{p_2},\cdots] s.t.P=[p1,p2,⋯],且 p 1 , p 2 , ⋯ \mathbf{p_1},\mathbf{p_2},\cdots p1,p2,⋯分块矩阵均满足对称信道条件。
下面列举的三个信道矩阵中, P 1 \mathbf{P_1} P1是对称信道,自然也属于弱对称信道和准对称信道; P 2 \mathbf{P_2} P2是弱对称信道,但也属于准对称信道; P 3 \mathbf{P_3} P3只是准对称信道。
P 1 = [ 0.3 0.7 0.7 0.3 ] P 2 = [ 0.4 0.1 0.2 0.3 0.1 0.4 0.3 0.2 ] P 3 = [ 0.7 0.2 0.1 0.2 0.7 0.1 ] \mathbf{P_1} = \begin{bmatrix} 0.3 & 0.7\\ 0.7 & 0.3 \end{bmatrix}\quad \mathbf{P_2} = \begin{bmatrix} 0.4 & 0.1 & 0.2 & 0.3\\ 0.1 & 0.4 & 0.3 & 0.2 \end{bmatrix}\quad \mathbf{P_3}= \begin{bmatrix} 0.7 & 0.2 & 0.1\\ 0.2 & 0.7 & 0.1 \end{bmatrix} P1=[0.30.70.70.3]P2=[0.40.10.10.40.20.30.30.2]P3=[0.70.20.20.70.10.1]
任何信道的平均互信息都可以写成信宿熵与噪声熵的差值,即:
I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(Y) - H(Y|X) I(X;Y)=H(Y)−H(Y∣X)
噪声熵是一种条件熵,是条件事件 ( y ∣ x ) (y|x) (y∣x)所对应的概率空间包含的信息量的期望,即:
H ( Y ∣ X ) = − ∑ x i ∈ X , y j ∈ Y p ( x i , y j ) log 2 p ( y j ∣ x i ) H(Y|X) = -\sum_{x_i\in X, y_j\in Y} p(x_i,y_j)\log_2p(y_j|x_i) H(Y∣X)=−xi∈X,yj∈Y∑p(xi,yj)log2p(yj∣xi)
考虑到期望运算的加权因子,即联合概率 p ( x , y ) p(x,y) p(x,y),实际上取决于信源概率分布和信道转移概率,即:
p ( x i , y j ) = p ( x i ) p ( y j ∣ x i ) p(x_i,y_j) = p(x_i) p(y_j|x_i) p(xi,yj)=p(xi)p(yj∣xi)
可以把噪声熵改写成另一种形式,在该形式中,信源分布和信道转移概率对噪声熵的影响被分离:
H ( Y ∣ X ) = − ∑ x i ∈ X , y j ∈ Y p ( x i , y j ) log 2 p ( y j ∣ x i ) = − ∑ x i ∈ X ∑ y j ∈ Y p ( x i ) p ( y j ∣ x i ) log 2 p ( y j ∣ x i ) = ∑ x i ∈ X p ( x i ) [ − ∑ y j ∈ Y p ( y j ∣ x i ) log 2 p ( y j ∣ x i ) ] \begin{aligned} H(Y|X) &= -\sum_{x_i\in X, y_j\in Y} p(x_i,y_j)\log_2p(y_j|x_i)\\ &= -\sum_{x_i\in X}\sum_{y_j\in Y}p(x_i)p(y_j|x_i)\log_2p(y_j|x_i)\\ &= \sum_{x_i\in X}p(x_i)\left[ -\sum_{y_j\in Y} p(y_j|x_i)\log_2p(y_j|x_i) \right] \end{aligned} H(Y∣X)=−xi∈X,yj∈Y∑p(xi,yj)log2p(yj∣xi)=−xi∈X∑yj∈Y∑p(xi)p(yj∣xi)log2p(yj∣xi)=xi∈X∑p(xi)⎣⎡−yj∈Y∑p(yj∣xi)log2p(yj∣xi)⎦⎤
考虑到对称信道的性质:对于任何输入符号,其转移概率分布都是第一个符号分布的置换,因此:
∀ x i ∈ X , − ∑ y j ∈ Y p ( y j ∣ x i ) log 2 p ( y j ∣ x i ) = C \forall x_i\in X, \quad -\sum_{y_j\in Y} p(y_j|x_i)\log_2p(y_j|x_i) = C ∀xi∈X,−yj∈Y∑p(yj∣xi)log2p(yj∣xi)=C
于是,信源分布不再对噪声熵有任何影响。噪声熵仅与信道转移概率有关,且转移概率矩阵的任意一行均可用来求解噪声熵:
H ( Y ∣ X ) = ∑ x i ∈ X p ( x i ) [ − ∑ y j ∈ Y p ( y j ∣ x i ) log 2 p ( y j ∣ x i ) ] = C ∑ x i ∈ X p ( x i ) = C = − ∑ y j ∈ Y p ( y j ∣ x t ) log 2 p ( y j ∣ x t ) ∀ x t ∈ X \begin{aligned} H(Y|X) &= \sum_{x_i\in X}p(x_i)\left[ -\sum_{y_j\in Y} p(y_j|x_i)\log_2p(y_j|x_i) \right]\\ &= C\sum_{x_i\in X}p(x_i)\\ &= C\\ &= -\sum_{y_j\in Y} p(y_j|x_t)\log_2p(y_j|x_t) \quad \forall x_t \in X \\ \end{aligned} H(Y∣X)=xi∈X∑p(xi)⎣⎡−yj∈Y∑p(yj∣xi)log2p(yj∣xi)⎦⎤=Cxi∈X∑p(xi)=C=−yj∈Y∑p(yj∣xt)log2p(yj∣xt)∀xt∈X
于是,求解 I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(Y) - H(Y|X) I(X;Y)=H(Y)−H(Y∣X)在 p ⃗ ( x ) \vec{p}(x) p(x)上最大值的问题,转变为求解 H ( Y ) H(Y) H(Y)在 p ⃗ ( x ) \vec{p}(x) p(x)最大值的问题。
信宿熵的本质也是一个概率空间的自信息熵。根据自信息熵的性质,当且仅当概率空间服从均匀分布时,自信息熵取得最大值。因此,可以试图让信宿分布达到均匀分布,进而使平均互信息最大。
需要注意的是,这样的尝试可能是失败的,因为信宿分布并不是一个可以调整的自变量。信宿分布是信源分布和信道转移概率作用后的结果,在给定信道的条件下,尝试让信宿服从均匀分布的过程就是在寻找一个合适的信源分布的过程。对于任意信道,这种信源分布很可能是不存在的(在后文求解准对称信道的章节中可以看到这一点);但值得庆幸的是,对于对称信道,这种信源分布一定存在:
∀ y t ∈ Y , p ( y t ) = ∑ x i ∈ X p ( x i , y t ) = ∑ x i ∈ X p ( x i ) p ( y t ∣ x i ) \forall y_t\in Y,\quad p(y_t) = \sum_{x_i\in X}p(x_i,y_t) = \sum_{x_i\in X}p(x_i)p(y_t|x_i) ∀yt∈Y,p(yt)=xi∈X∑p(xi,yt)=xi∈X∑p(xi)p(yt∣xi)
需要注意的是,对称信道任意输出的转移概率分布都相同。即,只要 p ( x i ) p(x_i) p(xi)与 x i x_i xi无关, ∑ x i p ( y t ∣ x i ) \sum_{x_i}p(y_t|x_i) ∑xip(yt∣xi)就与 y t y_t yt无关:
p ( y t ) = p ( x i ) ∑ x i ∈ X p ( y t ∣ x i ) p(y_t) = p(x_i)\sum_{x_i\in X}p(y_t|x_i) p(yt)=p(xi)xi∈X∑p(yt∣xi)
即:对于对称信道,当输入为均匀分布时,输出也是均匀分布。
综上,可以得出结论:对称信道的在输入为均匀分布时可以达到信道容量,信道容量的表达式为:
C = log 2 r − H ( Y ∣ x t ) C = \log_2r - H(Y|x_t) C=log2r−H(Y∣xt)
其中 r r r是输出符号的数量, H ( Y ∣ x t ) H(Y|x_t) H(Y∣xt)是以任意一个输入符号为条件,输出符号空间的条件熵。
由于弱对称信道和对称信道均要求信道转移概率关于不同输入对称,因此,弱对称信道的噪声熵也与输入分布无关:
H ( Y ∣ X ) = − ∑ y j ∈ Y p ( y j ∣ x t ) log 2 p ( y j ∣ x t ) ∀ x t ∈ X H(Y|X)= -\sum_{y_j\in Y} p(y_j|x_t)\log_2p(y_j|x_t) \quad \forall x_t \in X H(Y∣X)=−yj∈Y∑p(yj∣xt)log2p(yj∣xt)∀xt∈X
因此,弱对称信道的信道容量也在信宿熵最大时取得。考虑到(2.1.)中求解信宿服从均匀分布时,只要求以下方程成立:
p ( y t ) = p ( x i ) ∑ x i ∈ X p ( y t ∣ x i ) p(y_t) = p(x_i)\sum_{x_i\in X}p(y_t|x_i) p(yt)=p(xi)xi∈X∑p(yt∣xi)
而弱对称信道的转移概率虽然关于不同输出并不对称,但其概率之和是定值,即 ∑ x i p ( y t ∣ x i ) = C \sum_{x_i}p(y_t|x_i) = C ∑xip(yt∣xi)=C。因此,弱对称信道也能在均匀分布的信源作用下得到均匀分布的信宿。
因此,弱对称信道的信道容量与对称信道完全相同:弱对称信道在输入为均匀分布时可以达到信道容量,信道容量的表达式为:
C = log 2 r − H ( Y ∣ x t ) C = \log_2r - H(Y|x_t) C=log2r−H(Y∣xt)
其中 r r r是输出符号的数量, H ( Y ∣ x t ) H(Y|x_t) H(Y∣xt)是以任意一个输入符号为条件,输出符号空间的条件熵。
准对称信道的信道转移概率关于输入符号也是对称的,因此也具有对称信道和弱对称信道的关于噪声熵的结论:
H ( Y ∣ X ) = − ∑ y j ∈ Y p ( y j ∣ x t ) log 2 p ( y j ∣ x t ) ∀ x t ∈ X H(Y|X)= -\sum_{y_j\in Y} p(y_j|x_t)\log_2p(y_j|x_t) \quad \forall x_t \in X H(Y∣X)=−yj∈Y∑p(yj∣xt)log2p(yj∣xt)∀xt∈X
那么,求解信道平均互信息的最大值,理应也转化成求解信宿熵的最大值。与之前一样,我们期望存在一种信源分布,能使得信宿熵能实现均匀分布。然而令人遗憾的是,这种信源分布未必存在。
我们假设存在这样一种信源分布,能使信宿分布概率均为 1 / r 1/r 1/r,即:
[ p ( y 1 ∣ x 1 ) p ( y 2 ∣ x 1 ) ⋯ p ( y r ∣ x 1 ) p ( y 1 ∣ x 2 ) p ( y 2 ∣ x 2 ) ⋯ p ( y r ∣ x 2 ) ⋮ ⋮ ⋱ ⋮ p ( y 1 ∣ x s ) p ( y 2 ∣ x s ) ⋯ p ( y r ∣ x s ) ] T × [ p ( x 1 ) p ( x 2 ) ⋮ p ( x s ) ] = [ 1 / r 1 / r ⋮ 1 / r ] \begin{bmatrix} p(y_1|x_1) & p(y_2|x_1) & \cdots & p(y_r|x_1)\\ p(y_1|x_2) & p(y_2|x_2) & \cdots & p(y_r|x_2)\\ \vdots & \vdots & \ddots & \vdots\\ p(y_1|x_s) & p(y_2|x_s) & \cdots & p(y_r|x_s) \end{bmatrix}^T\times \begin{bmatrix} p(x_1)\\ p(x_2)\\ \vdots\\ p(x_s) \end{bmatrix}= \begin{bmatrix} 1/r\\ 1/r\\ \vdots\\ 1/r \end{bmatrix} ⎣⎢⎢⎢⎡p(y1∣x1)p(y1∣x2)⋮p(y1∣xs)p(y2∣x1)p(y2∣x2)⋮p(y2∣xs)⋯⋯⋱⋯p(yr∣x1)p(yr∣x2)⋮p(yr∣xs)⎦⎥⎥⎥⎤T×⎣⎢⎢⎢⎡p(x1)p(x2)⋮p(xs)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡1/r1/r⋮1/r⎦⎥⎥⎥⎤
能使输出达到均匀分布的信源分布是该线性非齐次方程组的一组解,但为了保证这个解确实能构成合理的信源概率空间,还需要添加概率空间完备性的约束条件 ∑ i p ( x i ) = 1 \sum_i p(x_i) = 1 ∑ip(xi)=1,于是方程变为:
[ p ( y 1 ∣ x 1 ) p ( y 1 ∣ x 2 ) ⋯ p ( y 1 ∣ x s ) p ( y 2 ∣ x 1 ) p ( y 2 ∣ x 2 ) ⋯ p ( y 2 ∣ x s ) ⋮ ⋮ ⋱ ⋮ p ( y r ∣ x 1 ) p ( y r ∣ x 2 ) ⋯ p ( y r ∣ x s ) 1 1 ⋯ 1 ] × [ p ( x 1 ) p ( x 2 ) ⋮ p ( x s ) ] = [ 1 / r 1 / r ⋮ 1 / r 1 ] \begin{bmatrix} p(y_1|x_1) & p(y_1|x_2) & \cdots & p(y_1|x_s)\\ p(y_2|x_1) & p(y_2|x_2) & \cdots & p(y_2|x_s)\\ \vdots & \vdots & \ddots & \vdots\\ p(y_r|x_1) & p(y_r|x_2) & \cdots & p(y_r|x_s)\\ 1& 1& \cdots & 1 \end{bmatrix}\times \begin{bmatrix} p(x_1)\\ p(x_2)\\ \vdots\\ p(x_s) \end{bmatrix}= \begin{bmatrix} 1/r\\ 1/r\\ \vdots\\ 1/r\\ 1 \end{bmatrix} ⎣⎢⎢⎢⎢⎢⎡p(y1∣x1)p(y2∣x1)⋮p(yr∣x1)1p(y1∣x2)p(y2∣x2)⋮p(yr∣x2)1⋯⋯⋱⋯⋯p(y1∣xs)p(y2∣xs)⋮p(yr∣xs)1⎦⎥⎥⎥⎥⎥⎤×⎣⎢⎢⎢⎡p(x1)p(x2)⋮p(xs)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎡1/r1/r⋮1/r1⎦⎥⎥⎥⎥⎥⎤
该线性非其次方程组有解的充要条件是:系数矩阵与增广矩阵同秩。
未完。。。