200804
本篇是《信息论》的读书笔记,欢迎各位路过指正!今天十章全部更新完毕啦。
香农(C.E.Shannon) 于1948年发表论文 “通信的数学理论” 奠定了信息论的基础。
香农第一定理(无失真信源编码定理):给出编码极限。
香农第二定理(有噪信道编码定理):传输速率小于信道容量,则误码率可以任意小。
香农第三定理(保失真度准则下的有失真信源编码定理):给定失真度,只要码字足够长,就可以使编码的失真度小于给定失真度。
H ( X ) = H ( p 1 , p 2 , ⋯ , p K ) = − ∑ n = 1 K p n log p n H(X)=H\left(p_{1}, p_{2}, \cdots, p_{K}\right)=-\sum_{n=1}^{K} p_{n} \log p_{n} H(X)=H(p1,p2,⋯,pK)=−n=1∑Kpnlogpn
[ X p ( x ) ] = [ a 1 a 2 ⋯ a K p ( a 1 ) p ( a 2 ) ⋯ p ( a K ) ] \left[\begin{array}{c}X \\ p(x)\end{array}\right]=\left[\begin{array}{cccc}a_{1} & a_{2} & \cdots & a_{K} \\ p\left(a_{1}\right) & p\left(a_{2}\right) & \cdots & p\left(a_{K}\right)\end{array}\right] [Xp(x)]=[a1p(a1)a2p(a2)⋯⋯aKp(aK)]
有 0 ≤ p n ≤ 1 0 \leq p_n \leq 1 0≤pn≤1, ∑ n = 1 K p n = 1 \sum_{n=1}^K p_n = 1 ∑n=1Kpn=1。若 X ∼ p ( x ) X\sim p(x) X∼p(x),则随机变量 g ( X ) g(X) g(X)的期望为 E [ g ( x ) ] = ∑ g ( x ) p ( x ) E[g(x)]=\sum g(x)p(x) E[g(x)]=∑g(x)p(x)。随机变量 X X X的熵可看为随机变量 l o g ( 1 / p ( X ) ) log(1/p(X)) log(1/p(X))的数学期望,其中 p ( x ) p(x) p(x)为 X X X的概率密度函数。
H ( p 1 , p 2 , ⋯ , p K − 1 , p 11 , p 12 , ⋯ , p 1 l ) = H ( p 1 , p 2 , ⋯ , p k ) + p k H ( p 11 p K , p 12 p K , ⋯ , p 1 i p K ) H\left(p_{1}, p_{2}, \cdots, p_{K-1}, p_{11}, p_{12}, \cdots, p_{1 l}\right)=H\left(p_{1}, p_{2}, \cdots, p_{k}\right)+p_{k} H\left(\frac{p_{11}}{p_{K}}, \frac{p_{12}}{p_{K}}, \cdots, \frac{p_{1 i}}{p_{K}}\right) H(p1,p2,⋯,pK−1,p11,p12,⋯,p1l)=H(p1,p2,⋯,pk)+pkH(pKp11,pKp12,⋯,pKp1i)
熵的含义:(1)平均意义:熵是整个集合的统计特性。(2)信息熵: H ( X ) H(X) H(X)表示每个消息提供的平均信息量。(3)随机性:信息熵 H ( X ) H(X) H(X)表征了变量X的随机性。
熵的链式法则:
H ( X 1 , X 2 , ⋯ , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯ , X 1 ) H\left(X_{1}, X_{2}, \cdots, X_{n}\right)=\sum_{i=1}^{n} H\left(X_{i} \mid X_{i-1}, \cdots, X_{1}\right) H(X1,X2,⋯,Xn)=i=1∑nH(Xi∣Xi−1,⋯,X1)
其中 ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) = 1 \sum_{k=1}^K \sum_{j=1}^J p (a_k,b_j) = 1 ∑k=1K∑j=1Jp(ak,bj)=1。
若独立,则联合熵等于单个随机变量熵之和;条件熵等于无条件熵(绝对熵)。
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y | X) =H(Y) + H(X | Y) H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
H ( Y ∣ X ) = − ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log p ( b j ∣ a k ) H(Y|X) = -\sum_{k=1}^K \sum_{j=1}^J p(a_k,b_j)\log p(b_j|a_k) H(Y∣X)=−k=1∑Kj=1∑Jp(ak,bj)logp(bj∣ak)
H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y|Z) = H(X|Z) + H(Y | X,Z) H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
确定关系:若 X X X与 Y Y Y有确定的函数关系,且 X X X可以完全确定 Y Y Y(或 Y Y Y完全确定 X X X),则 H ( Y ∣ X ) = H ( X ∣ Y ) = 0 H(Y|X) = H(X|Y) = 0 H(Y∣X)=H(X∣Y)=0。
条件熵不大于绝对熵是平均意义下的结论。
相对熵(Kullback熵) :两个随机分布之间距离的度量。
D ( p ∣ ∣ q ) = ∑ k = 1 K p ( a k ) log p ( a k ) q ( a k ) D(p||q) = \sum_{k=1}^Kp(a_k)\log\frac{p(a_k)}{q(a_k)} D(p∣∣q)=k=1∑Kp(ak)logq(ak)p(ak)
条件相对熵:一对随机变量的两个联合分布之间的相对熵可以展开为相对熵和条件相对熵之和。
D ( p ( y ∣ x ) ∥ q ( y ∣ x ) ) = ∑ x p ( x ) ∑ y p ( y ∣ x ) log p ( y ∣ x ) q ( y ∣ x ) = E p ( x , y ) log p ( Y ∣ X ) q ( Y ∣ X ) D(p(y \mid x) \| q(y \mid x))=\sum_{x} p(x) \sum_{y} p(y \mid x) \log \frac{p(y \mid x)}{q(y \mid x)}=E_{p(x, y)} \log \frac{p(Y \mid X)}{q(Y \mid X)} D(p(y∣x)∥q(y∣x))=x∑p(x)y∑p(y∣x)logq(y∣x)p(y∣x)=Ep(x,y)logq(Y∣X)p(Y∣X)
互信息的定义:
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = I ( Y ; X ) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = I(Y;X) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=I(Y;X)
也可以采用直接定义 X X X与 Y Y Y之间的互信息为
I ( X ; Y ) = ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log p ( a k , b j ) p ( a k ) p ( b j ) I(X ; Y)=\sum_{k=1}^{K} \sum_{j=1}^{J} p\left(a_{k}, b_{j}\right) \log \frac{p\left(a_{k}, b_{j}\right)}{p\left(a_{k}\right) p\left(b_{j}\right)} I(X;Y)=k=1∑Kj=1∑Jp(ak,bj)logp(ak)p(bj)p(ak,bj)
熵与互信息的关系:互信息是随机变量之间相互依存度的度量信息。
单个互信息物理意义: Y = b j Y=b_j Y=bj下获得的 X = a k X=a_k X=ak的信息量,互信息 I ( X ; Y ) I(X;Y) I(X;Y)为单个互信息的均值。
熵可由互信息导出。自信息的数学期望就是信息熵, H ( X ) = E [ I ( a k , a k ) ] = E [ H ( a k ) ] H(X) = E[I(a_k,a_k)]=E[H(a_k)] H(X)=E[I(ak,ak)]=E[H(ak)]。
条件互信息:给定随机变量 Z Z Z时,由 Y Y Y的信息而获得的关于 X X X的信息
I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = ∑ k = 1 K ∑ j = 1 J ∑ l = 1 L p ( a k , b j , c i ) log p ( a k , b j ∣ c i ) p ( a k ∣ c i ) p ( b j ∣ c i ) I(X ; Y \mid Z)=H(X \mid Z)-H(X \mid Y, Z)=\sum_{k=1}^{K} \sum_{j=1}^{J} \sum_{l=1}^{L} p\left(a_{k}, b_{j}, c_{i}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{i}\right)}{p\left(a_{k} \mid c_{i}\right) p\left(b_{j} \mid c_{i}\right)} I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=k=1∑Kj=1∑Jl=1∑Lp(ak,bj,ci)logp(ak∣ci)p(bj∣ci)p(ak,bj∣ci)
互信息的链式法则:
I ( X 1 , X 2 , ⋯ , X n ; Y ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , ⋯ , X 1 ) I\left(X_{1}, X_{2}, \cdots, X_{n} ; Y\right)=\sum_{i=1}^{n} I\left(X_{i} ; Y \mid X_{i-1}, \cdots, X_{1}\right) I(X1,X2,⋯,Xn;Y)=i=1∑nI(Xi;Y∣Xi−1,⋯,X1)
Jensen不等式:设函数 f ( x ) f(x) f(x)是凸域 D D D上的下凸函数,则对任意 a m ∈ D a_m \in D am∈D, 0 ≤ λ m ≤ 1 , λ 1 + . . . + λ M = 1 0\leq \lambda_m \leq 1, \lambda_1+ ... + \lambda_M = 1 0≤λm≤1,λ1+...+λM=1有
f ( ∑ m = 1 M λ m α m ) ≤ ∑ m = 1 M λ m f ( α n ) f\left(\sum_{m=1}^{M} \lambda_{m} \alpha_{m}\right) \leq \sum_{m=1}^{M} \lambda_{m} f\left(\alpha_{n}\right) f(m=1∑Mλmαm)≤m=1∑Mλmf(αn)
信息不等式:两个概率密度函数为 p ( x ) p(x) p(x)和 q ( x ) q(x) q(x)之间的鉴别信息为 D ( p ∣ ∣ q ) D(p||q) D(p∣∣q),则: D ( p ∣ ∣ q ) ≥ 0 D(p||q) \geq 0 D(p∣∣q)≥0,当且仅当对任意的 x x x, p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x),等号成立。
推论:
I ( X ; Y ) ≥ 0 I ( X ; Y ∣ Z ) ≥ 0 D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) ≥ 0 I(X;Y) \geq 0\\ I(X;Y|Z) \geq 0\\ D(p(y|x)||q(y|x))\geq 0 I(X;Y)≥0I(X;Y∣Z)≥0D(p(y∣x)∣∣q(y∣x))≥0
H ( X ) ≤ l o g ∣ X ∣ H(X)\leq log|X| H(X)≤log∣X∣,其中 ∣ X ∣ |X| ∣X∣表示 X X X的字母表 X X X中元素的个数,当且仅当 X X X服从 X X X上的均匀分布时,等号成立。
意义:在平均意义下,信源的不确定性减少。
H ( X ) ≥ H ( X ∣ Y ) H ( X ) \geq H ( X | Y ) H(X)≥H(X∣Y)
熵的独立界:当且仅当 X i X_i Xi相互独立,等号成立。熵函数为上凸函数。
H ( X 1 , X 2 , ⋯ , X n ) ≤ ∑ i = 1 n H ( X i ) H\left(X_{1}, X_{2}, \cdots, X_{n}\right) \leq \sum_{i=1}^{n} H\left(X_{i}\right) H(X1,X2,⋯,Xn)≤i=1∑nH(Xi)
定理:互信息为信源概率分布的上凸函数;互信息为信道矩阵的下凸函数。
数据处理不等式:数据处理都会损失信息。 若 X → Y → Z X\to Y\to Z X→Y→Z构成Markov链,则
I ( X ; Y ) ≥ I ( X ; Z ) I(X;Y)\geq I(X;Z) I(X;Y)≥I(X;Z)
费诺不等式:定义误差概率为 P e = P r { X ^ ≠ X } P_e = Pr\{\hat{X} \neq X\} Pe=Pr{X^=X}。则对任何满足 X → Y → X ^ X\to Y\to \hat{X} X→Y→X^的估计量 X ^ \hat{X} X^,有
H ( P e ) + P e log ∣ X ∣ ≥ H ( X ∣ X ^ ) ≥ H ( X ∣ Y ) 1 + P e log ∣ X ∣ ≥ H ( X ∣ Y ) H\left(P_{\mathrm{e}}\right)+P_{\mathrm{e}} \log |\boldsymbol{X}| \geq H(X \mid \hat{X}) \geq H(X \mid Y)\\ 1+P_{\mathrm{e}} \log |\boldsymbol{X}| \geq H(X \mid Y) H(Pe)+Pelog∣X∣≥H(X∣X^)≥H(X∣Y)1+Pelog∣X∣≥H(X∣Y)
意义:假定没有任何关于 Y Y Y的知识,只能在毫无信息的情况下对 X X X进行推测。 设 X ∈ { 1 , 2 , … , K } X\in \{1,2,…,K\} X∈{1,2,…,K}且 p 1 ≥ p 2 ≥ … ≥ p K p_1\geq p_2 \geq …\geq p_K p1≥p2≥…≥pK,则对 X X X的最佳估计是 X ^ = 1 \hat{X}=1 X^=1,而此时产生的误差概率为 P e = 1 − p 1 P_e=1-p_1 Pe=1−p1。
误差概率与熵之间的不等式:设 X X X和 X ’ X’ X’为两个独立同分布的随机变量,有相同的熵 H ( X ) H(X) H(X),那么 X = X ′ X=X' X=X′的概率为
Pr ( X = X ′ ) = ∑ p 2 ( x ) \operatorname{Pr}\left(X=X^{\prime}\right)=\sum p^{2}(x) Pr(X=X′)=∑p2(x)
信息符号冗余度:冗余度高,符号携带的信息率低,易于压缩;
信源的冗余编码:提高单个信息符号所携带的信息量。
渐进等同分割性(Asymptotic Equipartition Property)结论:信源分布等概,信息熵最大。
定理2.1.1(渐进均分性):设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是概率密度函数为p(x)的独立同分布(i.i.d)的随机变量,则
− 1 n log p ( X 1 , X 2 , ⋯ , X n ) → H ( X ) -\frac{1}{n} \log p\left(X_{1}, X_{2}, \cdots, X_{n}\right) \rightarrow H(X) −n1logp(X1,X2,⋯,Xn)→H(X)
直观解释:当序列足够长时,一部分序列就显现出这样的性质:**序列中各个符号的出现频数非常接近于各自的出现概率,而这些序列的概率则趋近于相等,且它们的和非常接近于1,这些序列就称为典型序列。**其余的非典型序列的出现概率之和接近于零。
香农在1948年的《通信的数学理论》中注意到它并表述为一个定理。后来麦克米伦在1953年发表的《信息论的基本定理》一文中严格地证明了这一结果。
定义2.1.1(典型集):设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是概率密度函数为 p ( x ) p(x) p(x)的i.i.d随机序列,如果联合分布 p ( x 1 , x 2 , … , x n ) p(x_1, x_2,… ,x_n) p(x1,x2,…,xn)满足下列条件:
∣ log p ( x 1 , x 2 , ⋯ , x n ) n + H ( X ) ∣ ≤ ε \left|\frac{\log p\left(x_{1}, x_{2}, \cdots, x_{n}\right)}{n}+H(X)\right| \leq \varepsilon ∣∣∣∣nlogp(x1,x2,⋯,xn)+H(X)∣∣∣∣≤ε
则称该源字母序列为典型序列(典型集),记为 A ε ( n ) A_\varepsilon^{(n)} Aε(n)。
直观意义:(1)给定特定的误差范围ε和序列长 n n n,离散无记忆信源输出序列的集中程度;(2)若固定 ε ε ε , n n n越大,典型序列中元素个数越多;(3)若固定 n n n, ε ε ε越大,典型序列中元素个数越多;(4)典型序列中的序列趋于等概。
定理2.1.2(典型集性质):(1)设 ( x 1 , x 2 , . . . , x n ) ∈ A ε ( n ) (x_1,x_2,...,x_n)\in A_\varepsilon^{(n)} (x1,x2,...,xn)∈Aε(n)则有: H ( X ) − ε ≤ − 1 n log p ( x 1 , x 2 , ⋯ , x n ) ≤ H ( X ) + ε H(X)-\varepsilon \leq-\frac{1}{n} \log p\left(x_{1}, x_{2}, \cdots, x_{n}\right) \leq H(X)+\varepsilon H(X)−ε≤−n1logp(x1,x2,⋯,xn)≤H(X)+ε
(2).当 n n n充分大时, P r { A ε ( n ) } > 1 − ε Pr\{A_\varepsilon^{(n)}\}>1-\varepsilon Pr{Aε(n)}>1−ε。
(3). ∣ A ε ( n ) ∣ ⩽ 2 n ( H ( X ) + ε ) |A_\varepsilon^{(n)}|\leqslant 2^{n(H(X)+\varepsilon)} ∣Aε(n)∣⩽2n(H(X)+ε)。
(4).当 n n n充分大时, ∣ A ε ( n ) ∣ ⩾ ( 1 − ε ) 2 n ( H ( X ) + ε ) |A_\varepsilon^{(n)}|\geqslant (1-\varepsilon)2^{n(H(X)+\varepsilon)} ∣Aε(n)∣⩾(1−ε)2n(H(X)+ε)
数据压缩:将集合元素按某种顺序(比如字典序)排列,指定下标可表示 A ε ( n ) A_\varepsilon^{(n)} Aε(n)中的每个序列。这需要 n ( H + ε ) + 1 n(H+\varepsilon)+1 n(H+ε)+1个比特,编码前加0,共需 n ( H + ε ) + 2 n(H+\varepsilon)+2 n(H+ε)+2个比特。对不属于 A ε ( n ) A_\varepsilon^{(n)} Aε(n)编码,比特数 n log ∣ X ∣ + 1 n\log|X|+1 nlog∣X∣+1,编码前加1。
编码特点:一一映射,易于译码;第一个比特标明了编码长度;非典序列枚举扩大编码范围;典型序列编码长度为 n H nH nH。分组编码作用:编码效率接近理想。
定理2.2.1(平均码长编码定理):设 X n X^n Xn为服从 p ( x ) p(x) p(x)的i.i.d序列, ε > 0 ε>0 ε>0,则存在一个编码将长度为 n n n的序列 x n x_n xn映射为比特串,使得其为一一映射,(因而可逆),且对于充分大的 n n n,有
E [ 1 n l ( X n ) ] ≤ H ( X ) + ε E\left[\frac{1}{n} l\left(X^{n}\right)\right] \leq H(X)+\varepsilon E[n1l(Xn)]≤H(X)+ε
于是平均意义上用 n H ( X ) nH(X) nH(X)可以表示序列 X n X^n Xn。
定义2.3.1(最小集): 对每个 n = 1 , 2 , … n=1,2,… n=1,2,…,设 B δ ( n ) ⊂ X n B_\delta^{(n)}\sub X^n Bδ(n)⊂Xn 为满足 P r ( B δ ( n ) ) > 1 − δ Pr(B_\delta^{(n)})>1-\delta Pr(Bδ(n))>1−δ的最小集。
定理2.3.1: 设 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn为服从概率密度函数 p ( x ) p(x) p(x)的i.i.d.随机变量序列。对 δ < 1 / 2 δ<1/2 δ<1/2及任意 δ > 0 δ>0 δ>0,如果 P r ( B δ ( n ) ) > 1 − δ Pr(B_\delta^{(n)})>1-\delta Pr(Bδ(n))>1−δ,则当 n n n充分大时,
1 n log ∣ B δ ( n ) ∣ > H − δ ′ \frac{1}{n} \log \left|\boldsymbol{B}_{\delta}^{(n)}\right|>H-\delta^{\prime} n1log∣∣∣Bδ(n)∣∣∣>H−δ′
意义:即在一阶指数意义下, B δ n ( n ) \boldsymbol{B}_{\delta_{n}}^{(n)} Bδn(n)至少含有 2 n H 2^{nH} 2nH个元素。
定义2.3.2:记号 a n ≐ b n a_{n} \doteq b_{n} an≐bn表示 lim n → ∞ 1 n log ∣ b n a n ∣ = 0 \lim_{n\to \infty}\frac{1}{n}\log |\frac{b_n}{a_n}|=0 limn→∞n1log∣anbn∣=0也就是在一阶指数意义下相等。
最小集性质:如果 δ n → 0 \delta_n \to 0 δn→0且 ε n → 0 \varepsilon_n \to 0 εn→0则 ∣ B δ n ( n ) ∣ ≐ ∣ A ε n ( n ) ∣ ≐ 2 n H \left|\boldsymbol{B}_{\delta_{n}}^{(n)}\right| \doteq\left|\boldsymbol{A}_{\varepsilon_{n}}^{(n)}\right| \doteq 2^{n H} ∣∣∣Bδn(n)∣∣∣≐∣∣∣Aεn(n)∣∣∣≐2nH
本章马尔可夫链基础知识略过。
本章内容表明:熵 H ( X 1 , X 2 , … X n ) H(X_1, X_2, …X_n) H(X1,X2,…Xn)随 n n n以速率 H ( X ) H(\mathcal{X}) H(X)(渐近地)线性增加,这个速率称为熵率。
信源:
离散无记忆信源(简单):各符号之间相互独立,各个符号的出现概率是它自身的先验概率 。
一般平稳信源(复杂):联合密度函数与时间起点无关。
马尔科夫信源:信源发出源字的概率,仅与当前源字及前有限个源字有关。
定义3.1.1 信源联合概率分布与时间起点无关:
p ( x 1 , x 2 , ⋯ , x n ) = p ( x 1 + 1 , x 2 + 1 , ⋯ , x n + 1 ) p\left(x_{1}, x_{2}, \cdots, x_{n}\right)=p\left(x_{1+1}, x_{2+1}, \cdots, x_{n+1}\right) p(x1,x2,⋯,xn)=p(x1+1,x2+1,⋯,xn+1)
则称该随机过程是平稳的。实际的信源短时间内是平稳的。本章主要研究时不变马尔科夫链。称 { a 1 , a 2 , . . . , a K } \{a_1,a_2,...,a_K\} {a1,a2,...,aK}为源字X。 x 1 x 2 . . . x n x_1x_2...x_n x1x2...xn为输出序列。输出概率由自身和前 l l l个源码有关, l l l个源字组成的状态组成信源状态序列 s 1 , s 2 , . . . , s m s_1,s_2,...,s_m s1,s2,...,sm。
相关概念:
过渡态:能到达其它某一状态,但不能返回;
吸收态:不能到达其它任何状态;
常返:经有限步迟早要返回该状态;
周期性:常返态中, q i i ( n ) q_{ii}(n) qii(n),仅当 n n n能被某整数 d d d整除时返回,周期性返回;
非周期:所有 n n n的最大公约数为1;
遍历:非周期常返;
闭集:子集内状态不能达到子集外;
不可约:最小闭集。
定义3.1.2(各态历经信源):各个状态都是遍历态(非周期常返)。
若概率矩阵 P P P的 m m m次幂 P m P^m Pm的所有元素皆为正,则该概率矩阵 P P P称为正规概率矩阵。
定义3.2.1(熵率):假设信源字母序列长度为 n n n,并用 ( X 1 , X 2 , … , X n ) (X_1, X_2,…, X_n) (X1,X2,…,Xn)表示,这是一个随机向量,该随机矢量的联合熵为: H ( X 1 , X 2 , . . . , X n ) H ( X_1, X_2 ,..., X_n) H(X1,X2,...,Xn) 则每个源字母的平均熵为: H n ( x ) ( X 1 , X 2 , . . . , X n ) / n H_n(x) ( X_1, X_2 ,..., X_n)/n Hn(x)(X1,X2,...,Xn)/n。其极限(若存在)称为该信源的熵率:
H ( ( X ) ) = lim n → ∞ 1 n H n ( x ) ( X 1 , X 2 , . . . , X n ) H(\mathcal(X))=\lim_{n\to \infty}\frac{1}{n}H_n(x) ( X_1, X_2 ,..., X_n) H((X))=n→∞limn1Hn(x)(X1,X2,...,Xn)
定理3.2.1: 设 { X i } \{X_i\} {Xi}为平稳马式链,其平稳分布为 μ \mu μ,转移概率矩阵为 P P P,则其熵率为
H ( X ) = − ∑ i j μ i P i j log P i j = − ∑ i = 1 N ∑ j = 1 N μ i P i j log P i j H(\mathcal{X})=-\sum_{i j} \mu_{i} P_{i j} \log P_{i j}=-\sum_{i=1}^{N} \sum_{j=1}^{N} \mu_{i} P_{i j} \log P_{i j} H(X)=−ij∑μiPijlogPij=−i=1∑Nj=1∑NμiPijlogPij
引入变量 H ′ ( X ) = lim n → ∞ H ( X n ∣ X 1 , . . . , X n − 1 ) H^\prime(\mathcal{X}) = \lim_{n \to \infty} H(X_n|X_1,...,X_{n-1}) H′(X)=limn→∞H(Xn∣X1,...,Xn−1)
定理3.2.2:平稳随机过程的熵率存在,且 H ( X ) = H ′ ( X ) H(\mathcal{X}) = H^\prime(\mathcal{X}) H(X)=H′(X)
定理3.2.3: 平稳随机过程的 H ( X n ∣ X 1 , . . . , X n − 1 ) H(X_n|X_1,...,X_{n-1}) H(Xn∣X1,...,Xn−1)为单调递减序列。
定理3.2.4(Cesaro值):若 a n → a a_n\to a an→a且 b n = 1 n ∑ i = 1 n a i b_n =\frac{1}{n}\sum_{i=1}^na_i bn=n1∑i=1nai则 b n → a b_n \to a bn→a。
定理3.3.1 若 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn构成平稳马尔可夫链,且 Y i = Φ ( X i ) Y_i=Φ(X_i) Yi=Φ(Xi),那么
H ( Y n ∣ Y n − 1 , … , Y 1 , X 1 ) ≤ H ( Y ) ≤ H ( Y n ∣ Y n − 1 , … , Y 1 ) H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}, X_{1}\right) \leq H(\mathcal{Y}) \leq H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}\right) H(Yn∣Yn−1,…,Y1,X1)≤H(Y)≤H(Yn∣Yn−1,…,Y1)
且 lim H ( Y n ∣ Y n − 1 , … , Y 1 , X 1 ) = H ( D ) = lim H ( Y n ∣ Y n − 1 , … , Y 1 ) \lim H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}, X_{1}\right)=H(\mathcal{D})=\lim H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}\right) limH(Yn∣Yn−1,…,Y1,X1)=H(D)=limH(Yn∣Yn−1,…,Y1)
定义3.3.1(隐马尔可夫模型) 考虑 X i X_i Xi的随机函数 Y i Y_i Yi。由 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn定义新过程 Y 1 , Y 2 , … , Y n Y_1,Y_2,…,Y_n Y1,Y2,…,Yn,其中每个 Y i Y_i Yi服从 p ( y i ∣ x i ) p(y_i|x_i) p(yi∣xi),且条件独立于其他所有的 X j X_j Xj, j ≠ i j≠i j=i,即
p ( x n , y n ) = p ( x 1 ) ∏ i = 1 n − 1 p ( x i + 1 ∣ x i ) ∏ i = 1 n p ( y i ∣ x i ) p\left(x^{n}, y^{n}\right)=p\left(x_{1}\right) \prod_{i=1}^{n-1} p\left(x_{i+1} \mid x_{i}\right) \prod_{i=1}^{n} p\left(y_{i} \mid x_{i}\right) p(xn,yn)=p(x1)i=1∏n−1p(xi+1∣xi)i=1∏np(yi∣xi)
这样的过程称为隐马尔可夫模型(HMM)。
- 贝尔实验室的Shannon 和 MIT 的 Fano几乎同时提出了最早的对符号进行有效编码从而实现数据压缩的 Shannon-Fano 编码方法。
- 可以证明,算术编码得到的压缩效果可以最大地减小信息的冗余度,用最少量的符号精确表达原始信息内容。算术编码是部分匹配预测(PPM)技术的变体
定义4.1.1 关于随机变量 X X X的信源编码 C C C是从 X X X的取值空间到 D ∗ D^\ast D∗的一个映射,其中 D ∗ D^\ast D∗表示字母表 D D D上有限长度的字符串所构成的集合。用 C ( x ) C(x) C(x)表示 x x x的码字,并用 l ( x ) l(x) l(x)表示 C ( x ) C(x) C(x)的长度。
定义4.1.2 设随机变量 X ∼ p ( x ) X\sim p(x) X∼p(x),信源编码 C ( x ) C(x) C(x)的期望长度为
L ( c ) = ∑ x ∈ X p ( x ) l ( x ) L(c) = \sum_{x\in \mathcal{X}}p(x)l(x) L(c)=x∈X∑p(x)l(x)
其中 l ( x ) l(x) l(x)表示对应于 x x x的码字长度。
定义4.1.3 如果编码将 X X X的取值空间中的每个元素映射成 D ∗ D^\ast D∗中不同的字符串,即 x ≠ x ′ ⇒ C ( x ) ≠ C ′ ( x ) x \neq x^\prime \Rightarrow C(x) \neq C^\prime(x) x=x′⇒C(x)=C′(x)则称这个编码是非奇异的。
定义4.1.4 编码 C C C的扩展 C ∗ C^\ast C∗是从 X X X上的有限长字符串到 D D D上的有限长字符串的映射,定义为
C ( x 1 , x 2 , . . . , x n ) = C ( x 1 ) C ( x 2 ) . . . C ( x n ) C(x_1,x_2,...,x_n)=C(x_1)C(x_2)...C(x_n) C(x1,x2,...,xn)=C(x1)C(x2)...C(xn)
C ( x i ) C(x_i) C(xi))表示相应码字的串联。
定义4.1.5 如果一个编码的扩展码是非奇异码,则称该编码是唯一可译的。信息序列与码字序列一一对应。
定义4.1.6 若码中无任何码字是其它码字的前缀,则称该码为前缀码。
每一码字传输完毕,即可译码,称为即时码。
∑ k = 1 m D − l k ⩽ 1 \sum_{k=1}^m D^{-l_k} \leqslant 1 k=1∑mD−lk⩽1
时,存在前缀码。
∑ k = 1 m D − l k ⩽ 1 \sum_{k=1}^m D^{-l_k} \leqslant 1 k=1∑mD−lk⩽1
时,存在前缀码。
定理4.3.1 随机变量 X X X的任一 D D D元即时码的期望长度必定大于或等于熵 H D ( X ) H_D(X) HD(X),即 L ⩾ H D ( X ) L\geqslant H_D(X) L⩾HD(X),当且仅当 p i = D − l i p_i = D^{-l_i} pi=D−li时等号成立。
定义4.3.1 对于某个 n n n,如果概率分布的每一个概率值均等于 D − n D^{-n} D−n,则称这个概率分布是 D D D进制的。当且仅当 X X X的分布是 D D D进制的,上述定理等号成立。
定理4.3.2(最优码长的界) 设 l 1 , l 2 , … , l m l_1, l_2,…, l_m l1,l2,…,lm是关于信源分布 p p p和一个 D D D元字母表的一组最优码长, L L L为最优码的期望长度,则
H D ( X ) ⩽ L ⩽ H D ( X ) + 1 H_D(X) \leqslant L \leqslant H_D(X)+1 HD(X)⩽L⩽HD(X)+1
L n = 1 2 E l ( x 1 , x 2 , . . . , x n ) L_n = \frac{1}{2}El(x_1,x_2,...,x_n) Ln=21El(x1,x2,...,xn)
有增加分组长度,可逼近最优编码。
H ( X 1 , X 2 , ⋯ , X n ) n ≤ L n ∗ ≤ H ( X 1 , X 2 , ⋯ , X n ) n + 1 n \frac{H\left(X_{1}, X_{2}, \cdots, X_{n}\right)}{n} \leq L_{n}^{*} \leq \frac{H\left(X_{1}, X_{2}, \cdots, X_{n}\right)}{n}+\frac{1}{n} nH(X1,X2,⋯,Xn)≤Ln∗≤nH(X1,X2,⋯,Xn)+n1
进一步,若 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn是平稳随机过程,有 L n ∗ → H ( X ) L_n^\ast \to H(\mathcal{X}) Ln∗→H(X)。其中$ H(\mathcal{X})$为随机过程的熵率。
编码偏差:编码的分布与信源的真实分布存在偏差时,可用 D ( p ∣ ∣ q ) D(p||q) D(p∣∣q)描述编码增加的复杂度。
定理4.3.4(偏码) 码字长度分配关于p(x)的期望满足 l ( x ) = − ⌈ log q ( x ) ⌉ l(x)=-\lceil\log q(x)\rceil l(x)=−⌈logq(x)⌉关于p(x)的期望满足
H ( p ) + D ( p ∣ ∣ q ) ⩽ E p l ( x ) < H ( p ) + D ( p ∣ ∣ q ) + 1 H(p) + D(p || q) \leqslant E_pl(x)< H(p)+D(p || q)+1 H(p)+D(p∣∣q)⩽Epl(x)<H(p)+D(p∣∣q)+1
结论:若真实分布为 p ( x ) p(x) p(x),而编码使用的分布为 q ( x ) q(x) q(x),则平均码长增加 D ( p ∣ ∣ q ) D(p||q) D(p∣∣q)。
定理4.3.5 (唯一可译码的Kraft不等式) 含有 D D D个码字的编码系统,其任意唯一可译码的平均码长满足Kraft不等式
∑ k = 1 m D − l k ⩽ 1 \sum_{k=1}^m D^{-l_k} \leqslant 1 k=1∑mD−lk⩽1
反之,若给定满足上述不等式的一组码字长度,则可以构造出具有同样码字长度的唯一可译码。
[ X ′ P ′ ( x ) ] = [ a 1 a 2 ⋯ a K − 2 a K − 1 ′ p ( a 1 ) p ( a 2 ) ⋯ p ( a K − 2 ) p ′ ( a K − 1 ) ] \left[\begin{array}{c} X^{\prime} \\ P^{\prime}(x) \end{array}\right]=\left[\begin{array}{ccccc} a_{1} & a_{2} & \cdots & a_{K-2} & a_{K-1}^{\prime} \\ p\left(a_{1}\right) & p\left(a_{2}\right) & \cdots & p\left(a_{K-2}\right) & p^{\prime}\left(a_{K-1}\right) \end{array}\right] [X′P′(x)]=[a1p(a1)a2p(a2)⋯⋯aK−2p(aK−2)aK−1′p′(aK−1)]
也就是有 p ′ ( a K − 1 ) = p ( a K − 1 ) + p ( a K ) p^\prime(a_{K-1}) = p(a_{K-1})+p(a_K) p′(aK−1)=p(aK−1)+p(aK)。
- 最小化 ∑ p i l i \sum p_il_i ∑pili的哈夫曼算法对任意一组 p i ⩾ 0 p_i\geqslant 0 pi⩾0都是成立的,而无需考虑 ∑ p i \sum p_i ∑pi的大小。此时,赫夫曼编码算法最小化的是码长加权和 ∑ ω i l i \sum \omega_il_i ∑ωili ,而非平均码长。
对于某个特定的字符,使用码长为 − ⌈ log q ( x ) ⌉ -\lceil\log q(x)\rceil −⌈logq(x)⌉的编码(称为香农码)可能比最优码更差。
费诺编码:是次优编码,类似于切片码。先将概率值以递减次序排列,然后选取k使
∣ ∑ i = 1 k log p i − ∑ i = k + 1 m log p i ∣ \left|\sum_{i=1}^{k} \log p_{i}-\sum_{i=k+1}^{m} \log p_{i}\right| ∣∣∣∣∣i=1∑klogpi−i=k+1∑mlogpi∣∣∣∣∣
达到最小值。
适合的场合: 小字母表、概率分布不均衡、建模与编码分开。
将源码序列的概率与 [ 0 , 1 ) [0,1) [0,1)中的一个实数相对应,实数的二进制表示即为源码序列的算术码。
定理4.5.1(算术码的存在性) 定义 a k a_k ak的修正累积概率 F ˉ ( a k ) = ∑ a i > a k p ( a i ) + p ( a k ) / 2 \bar{F}\left(a_{k}\right)=\sum_{a_{i}>a_{k}} p\left(a_{i}\right)+p\left(a_{k}\right) / 2 Fˉ(ak)=∑ai>akp(ai)+p(ak)/2由修正概率可以推出源字母,而后将修正概率用二进制表示,取二进制小数后 l K l_K lK位,使其能与 a K a_K aK一一对应。可以证明,取 l k = ⌈ log p ( a k ) − 1 ⌉ + 1 l_{k}=\left\lceil\log p\left(a_{k}\right)^{-1}\right\rceil+1 lk=⌈logp(ak)−1⌉+1位即可唯一确定 a k a_k ak;此时平均码长 l ˉ < H ( X ) + 2 \bar{l}
性质:与Huffman相比二者的渐近性质相同。扩展的Huffman要求巨大数量的存储和编码 m n m^n mn。增益为字母表大小和分布的函数。不均衡的分布更适合算术编码,很容易将算术编码扩展到多个编码器,很容易将算术编码适应到统计变化模型(自适应模型、上下文模型)
自适应算术编码:统计编码技术需要利用信源符号的概率,获得这个概率的过程称为建模。建模的方式包括静态建模和自适应动态建模。
QM编码器:将输入符号(一个bit)分为大概率符号(More Probable Symbol,MPS)或小概率符号(Less Probable Symbol,LPS)在输入下一位之前,编码器先利用一个统计模型预测MPS是0还是1,然后再输入该位并按其实际值分类输出流为MPS或LPS的流,MPS和LPS的概率动态更新,为算术编码器所用。
定义5.1.1:离散无记忆信道信道容量定义为 C = max p ( x ) I ( X ; Y ) C = \max_{p(x)}I(X;Y) C=maxp(x)I(X;Y)。将信道容量定义为信道的最高码率。在此码率下,信息能够以任意小的差错概率传输。(香农第二定理)
信道例子:无噪声二元信道、无重叠输出的有噪声信道、有噪声的打字机信道;
译码: W ^ = g ( Y n ) \hat{W}=g(Y^n) W^=g(Yn)猜测消息 W W W。
定义5.1.2(离散信道):用 ( X , p ( y ∣ x ) , Y ) (X,p(y|x),Y) (X,p(y∣x),Y)表示的离散信道由两个有限集 X X X和 Y Y Y以及一簇概率密度函数 p ( y ∣ x ) p(y|x) p(y∣x)构成,其中对任意 x , y x,y x,y有 p ( y ∣ x ) ⩾ 0 p(y|x)\geqslant 0 p(y∣x)⩾0,以及对任意的 x x x,有 ∑ p ( y ∣ x ) = 1 \sum p(y|x) = 1 ∑p(y∣x)=1而 x x x和 y y y分别看作信道的输入与输出。
定义5.1.3(扩展信道): 离散无记忆信道(DMC)的 n n n次扩展是指信道 ( X n , p ( y n ∣ x n ) , Y n ) (X^n,p(y^n|x^n),Y^n) (Xn,p(yn∣xn),Yn),其中 p ( y k ∣ x k , y k − 1 ) = p ( y k ∣ x k ) p(y_k|x^k,y^{k-1}) = p(y_k | x_k) p(yk∣xk,yk−1)=p(yk∣xk)。
定义5.1.4(编码):信道 ( X , p ( y ∣ x ) , Y ) (X,p(y|x),Y) (X,p(y∣x),Y)的 ( M , n ) (M,n) (M,n)码由以下部分构成:(1)下标集 { 1 , 2 , … , M } \{1,2,…,M\} {1,2,…,M} ;(2)编码函数为 X n : { 1 , 2 , … , M } → X n X^n: \{1,2,…,M\}\to X^n Xn:{1,2,…,M}→Xn上的映射,生成码字 x n ( 1 ) , x n ( 2 ) , … , x n ( M ) x_n(1), x_n(2),…, x_n(M) xn(1),xn(2),…,xn(M)。码字集合称为码书;(3)译码函数 g : Y n → { 1 , 2 , … , M } g: Y_n\to \{1,2,…,M\} g:Yn→{1,2,…,M}。为一确定规则,对接收码字进行译码。
定义5.1.5(条件误差概率): 设 λ i = P r ( g ( Y n ) ≠ i ∣ X n = x n ( i ) ) \lambda_i = Pr(g(Y^n)\neq i | X^n = x^n(i)) λi=Pr(g(Yn)=i∣Xn=xn(i))为已知下标 i i i被发送的条件下的条件误差概率,其中 I ( ⋅ ) I(·) I(⋅)为示性函数。
最大误差概率定义为 λ ( n ) = max i ∈ { 1 , 2 , . . . , M } λ i \lambda^{(n)} = \max_{i\in \{1,2,...,M\}}\lambda_i λ(n)=maxi∈{1,2,...,M}λi。
定义5.1.6(平均误差概率): P e ( n ) = 1 M ∑ i = 1 M λ i P_e^{(n)} = \frac{1}{M} \sum_{i=1}^M \lambda_i Pe(n)=M1∑i=1Mλi。
定义5.1.7 ( M , n ) (M,n) (M,n)的码率定义为 R = ( log M ) / n R=(\log M)/n R=(logM)/n 比特
定义5.1.8(可达):如果存在一个 ( ⌈ 2 n R ⌉ , n ) \left(\lceil2^{nR}\rceil,n\right) (⌈2nR⌉,n)码序列,满足 n → ∞ n\to \infty n→∞时,最大误差概率 λ ( n ) → 0 \lambda (n)\to 0 λ(n)→0,则称码率 R R R是可达的。
定义5.1.9(信道容量) :所有可达码率的上确界。
简单推论:对于充分大的分组长度,小于信道容量的码率对应的误差概率可以任意小。
对称信道的信道容量:设 r r r表示转移矩阵的一行: I ( X ; Y ) = H ( Y ) − H ( r ) ⩽ log ∣ Y ∣ − H ( r ) I(X;Y)=H(Y)-H(r)\leqslant \log|Y| -H(r) I(X;Y)=H(Y)−H(r)⩽log∣Y∣−H(r).当 Y Y Y等概分布时,等号成立。
定义5.2.1(对称信道):如果信道转移矩阵 p ( y ∣ x ) p(y|x) p(y∣x)的任何两行互相置换;任何两列也互相置换,那么称该信道是对称的。如果转移矩阵的每一行 p ( ⋅ ∣ x ) p(·|x) p(⋅∣x)都是其他每行的置换,而所有列的元素和 ∑ p ( y ∣ x ) \sum p(y|x) ∑p(y∣x)相等,则称这个信道是弱对称的。
定理7.2.1 对于弱对称信道, C = log ∣ Y ∣ − H ( r ) C = \log|Y| - H(r) C=log∣Y∣−H(r)。
信道容量的性质:
a. C ⩾ 0 C\geqslant 0 C⩾0
b. C ⩽ log ∣ X ∣ C \leqslant \log|X| C⩽log∣X∣
c. C ⩽ log ∣ Y ∣ C \leqslant \log | Y| C⩽log∣Y∣
d. I ( X ; Y ) I(X;Y) I(X;Y)是 p ( x ) p(x) p(x)的上凸函数,其最大值即为信道容量。
联合典型:输入典型n长序列,有约 2 n H ( Y ∣ X ) 2^{nH(Y|X)} 2nH(Y∣X) 个可能的Y序列与之对应,且所有序列等概。
定理5.3.1(信道编码定理,香农第二定理):对于离散无记忆信道,小于信道容量 C C C的所有码率都是可达的。具体来说,对任意码率 R < C R
A ( n ) = { ( x n , y n ) ∈ X n × Y n : ∣ − ( log p ( x a ) ) / n − H ( X ) ∣ < ε ∣ − ( log p ( y n ) ) / n − H ( Y ) ∣ < ε ∣ − ( log p ( x n , y n ) ) / n = H ( X , Y ) ∣ < ε } \begin{array}{l} A^{(n)}=\left\{\left(x^{n}, y^{n}\right) \in X^{n} \times Y^{n}:\right. \\ \left|-\left(\log p\left(x^{a}\right)\right) / n-H(X)\right|<\varepsilon \\ \left|-\left(\log p\left(y^{n}\right)\right) / n-H(Y)\right|<\varepsilon \\ \left.\left|-\left(\log p\left(x^{n}, y^{n}\right)\right) / n=H(X, Y)\right|<\varepsilon\right\} \end{array} A(n)={(xn,yn)∈Xn×Yn:∣−(logp(xa))/n−H(X)∣<ε∣−(logp(yn))/n−H(Y)∣<ε∣−(logp(xn,yn))/n=H(X,Y)∣<ε}
Pr ( ( X ~ n , Y ~ ∗ n ) ∈ A c ( n ) ) ≤ 2 − n ( I ( X ; Y ) − 3 ε ) \operatorname{Pr}\left(\left(\tilde{X}^{n}, \tilde{Y}^{*n}\right) \in A_{c}^{(n)}\right) \leq 2^{-n(I(X ; Y)-3 \varepsilon)} Pr((X~n,Y~∗n)∈Ac(n))≤2−n(I(X;Y)−3ε)
而且,对于充分大的 n n n
Pr ( ( X ~ n , Y ~ n ) ∈ A e ( n ) ) ≥ ( 1 − ε ) 2 − n ( I ( X ; Y ) + 3 ε ) \operatorname{Pr}\left(\left(\tilde{X}^{n}, \tilde{Y}^{n}\right) \in A_{e}^{(n)}\right) \geq(1-\varepsilon) 2^{-n\left(I(X;Y)+3\varepsilon\right)} Pr((X~n,Y~n)∈Ae(n))≥(1−ε)2−n(I(X;Y)+3ε)
汉明码是1950年由汉明首先构造, 用以纠正单个错误的线性分组码。
奇偶校验矩阵性质:矩阵 H H H对任意码字 c c c均有 H c T = 0 Hc^T=0 HcT=0。
差错向量:设 e i e_i ei是第 i i i个位置为1其余位置为0的向量。
接收向量:若码字第 i i i个位置出错,则接收到的向量为 r = c + e i r=c+e_i r=c+ei。
校验: H r T = H ( c + e i ) T = H c T + H e i T = H e i T Hr^T=H(c+e_i)T=Hc^T+He_i^T=He_i^T HrT=H(c+ei)T=HcT+HeiT=HeiT可指示错误位置。
系统码:对于一般情形,将线性码进行修改,可以使得映射更加明显:让码字中的前 k k k个比特代表消息,而后面 n − k n-k n−k个比特留作奇偶校验位。这样得到的编码称作系统码。
卷积码:每个输出组不仅依赖于当前的输入组,而且依赖于过去的一些输入组。这种码的一个高级结构化的形式称作卷积码。
定义5.6.1 (反馈码): ( 2 n R , n ) (2^{nR},n) (2nR,n) 的一个映射序列 x i ( W , Y i − 1 ) x_i(W,Y^{i-1}) xi(W,Yi−1)和一个译码函数序列 g : Y n → { 1 , 2 , … , 2 n R } g:Y^n\to \{1,2,…,2^{nR}\} g:Yn→{1,2,…,2nR},其中 x i x_i xi 是消息 W ∈ { 1 , 2 , … , 2 n R } W\in \{1,2,…,2^{nR}\} W∈{1,2,…,2nR}和先前接收到的值 Y 1 , Y 2 , … , Y i − 1 Y_1,Y_2,…,Y_{i-1} Y1,Y2,…,Yi−1的函数。
差错概率: W W W服从 { 1 , 2 , … , 2 n R } \{1,2,…,2^{nR}\} {1,2,…,2nR}均匀分布时,有
P e ( n ) = P r { g ( Y n ) ≠ W } P_e^{(n)} = Pr\{g(Y^n) \neq W\} Pe(n)=Pr{g(Yn)=W}
定义5.6.2 (反馈容量):离散无记忆信道的反馈容量定义为反馈码可以达到的所有码率的上确界。
定理5.6.1(反馈容量):信道反馈容量等于信道容量。
C F B = C = max p ( x ) I ( X ; Y ) C_{FB} = C = \max_{p(x)}I(X;Y) CFB=C=p(x)maxI(X;Y)
定理5.6.2:采用联合信源信道编码与分离编码一样有效。
定理5.6.3(信源信道编码定理):如果 V 1 , V 2 , … , V n V_1,V_2,…,V_n V1,V2,…,Vn为有限字母表上满足AEP和 H ( V ) < C H(V)
定义6.1.1 设 X X X是一个随机变量,其累计分布函数为 F ( x ) = P r ( X ⩽ x ) F(x)=Pr(X\leqslant x) F(x)=Pr(X⩽x) 。如果 F ( x ) F(x) F(x)连续,则称该随机变量连续。另外,使 f ( x ) > 0 f(x)>0 f(x)>0 的所有 x x x构成的集合称为 X X X的支撑集。
定义6.1.2(微分熵) 一个以 f ( x ) f(x) f(x)为密度函数的连续型随机变量 X X X的微分熵 h ( X ) h(X) h(X)定义为
h ( X ) = − ∫ S f ( x ) log f ( x ) d x h(X) = - \int_S f(x)\log f(x)dx h(X)=−∫Sf(x)logf(x)dx
其中 S S S是这个随机变量的支撑集。离散的熵
H Δ x ( X ) = − ∑ i = − ∞ ∞ f ( x i Δ x ) log ( f ( x i ) Δ x ) H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx(X)=−i=−∞∑∞f(xiΔx)log(f(xi)Δx)
定理 6.2.1 设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是概率密度函数为 p ( x ) p(x) p(x)的i.i.d随机序列,那么下面的极限依概率收敛 − 1 n log p ( X 1 , X 2 , . . . , X n ) → h ( X ) -\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X) −n1logp(X1,X2,...,Xn)→h(X)
定义6.2.1(体积) 集合 A ⊂ R n A\sub R^n A⊂Rn的体积 V o l ( A ) Vol(A) Vol(A)定义为: V o l ( A ) = ∫ S d x 1 d x 2 . . . d x n Vol(A) = \int_S dx_1 dx_2 ... dx_n Vol(A)=∫Sdx1dx2...dxn。
定理6.2.2典型集 A ε ( n ) A_\varepsilon^{(n)} Aε(n)有如下性质:
a. 当 n n n充分大时, P r { A ε ( n ) } > 1 − ε Pr\{A_\varepsilon^{(n)}\}>1-\varepsilon Pr{Aε(n)}>1−ε;
b. 对于所有 n n n, V o l ( A ε ( n ) ) ⩽ 2 n ( h ( X ) + ε ) Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)} Vol(Aε(n))⩽2n(h(X)+ε);
c. 当 n n n充分大时, V o l ( A ε ( n ) ) ⩾ ( 1 − ε ) 2 n ( h ( X ) − ε ) Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)} Vol(Aε(n))⩾(1−ε)2n(h(X)−ε)。
定理8.2.3 在一阶指数意义下, 在所有概率 P ⩾ 1 − ε P\geqslant 1-ε P⩾1−ε的集合中, A ε ( n ) A_\varepsilon^{(n)} Aε(n)是体积最小者。
微分熵解释:熵就是拥有大部分概率的最小集的边长的对数值。因此, 较低的熵意味着随机变量被限于一个狭小的有效正方体内,而较高的熵意味着该随机变量是高度分散的。
定理6.3.1 如果随机变量 X X X的密度函数 f ( x ) f(x) f(x)是黎曼可积的,那么
H Δ x ( X ) + log Δ x → h ( f ) = h ( X ) , Δ x → 0 H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx(X)+logΔx→h(f)=h(X),Δx→0
于是,连续随机变量 X X X经过 n n n比特量化处理(分割的小区间长度 1 / 2 n 1/2^n 1/2n后的熵大约为 h ( X ) + n h(X)+n h(X)+n。
变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn的联合微分熵定义为
h ( X 1 , X 2 , . . . , X n ) = − ∫ f ( x n ) log f ( x n ) d x n h(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1,X2,...,Xn)=−∫f(xn)logf(xn)dxn
h ( X ∣ Y ) = − ∫ f ( x , y ) log f ( x ∣ y ) d x d y h(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(X∣Y)=−∫f(x,y)logf(x∣y)dxdy
h ( X 1 , X 2 , . . . , X n ) = h ( N ( μ , K ) ) = 1 2 log ( ( 2 π e ) n ∣ K ∣ ) h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1,X2,...,Xn)=h(N(μ,K))=21log((2πe)n∣K∣)
互信息的一般形式:
可从随机变量的值域的有限分割的角度来定义互信息。设 χ \chi χ为随机变量 X X X的值域, P \mathcal{P} P为 χ \chi χ的一个分割是指存在有限个不相交的集合 P i P_i Pi使得 ⋃ i P i = x \bigcup_iP_i = x ⋃iPi=x。 X X X关于 P P P的量化记为 [ X ] P [X]_{\mathcal{P}} [X]P是定义如下的离散随机变量:
P r ( [ X ] P = i ) = P r ( X ∈ P i ) = ∫ P i d F ( x ) Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P=i)=Pr(X∈Pi)=∫