信息论与编码
统计信息的概念
香农信息是事物运动状态或存在方式的不确定性的描述
把消息变成适合信道传输的物理量,这种物理量就称为信号
通信的目的:实现信息的保真传输
DMS(Discrete memoryless source)离散无记忆信源
自信息(self information)表示信息量的大小
自信息与事件不确定性相关
I(ai)=−logp(ai) I ( a i ) = − log p ( a i )
log2 :bit
loge :nat
log10 :hart
联合自信息
I(xy)=−logp(xy) I ( x y ) = − log p ( x y )
条件自信息
I(x|y)=−logp(x|y) I ( x | y ) = − log p ( x | y )
离散信源
1.信源的数学模型与分类
概率空间(离散信源):
[XP(x)] [ X P ( x ) ]
X为样本空间,P(x)为概率函数,P(x)和为1,P大写
离散信源分为离散无记忆信源(DMS)和离散有记忆信源
离散无记忆信源(DMS):一维概率分布
离散有记忆信源:N维概率分布
概率空间(连续信源):
[Xp(x)] [ X p ( x ) ]
X为样本空间,p(x)为概率函数,p(x)积分为1,p小写
连续信源分为时间离散的连续源和随机波形源
随机波形源可以通过采样变成时间离散的连续源
2.信息熵
信源X的信息熵:信源输出各消息的自信息量I(ai)的数学期望
含义:
(A)熵值大小表示平均不确定性大小
(B)平均每个信源符号所携带的信息量
单位:bit/sig,nat/sig,hart/sig
H(X)=E(I(ai))=−∑P(ai)logP(ai) H ( X ) = E ( I ( a i ) ) = − ∑ P ( a i ) log P ( a i )
对于某给定信源,信息熵H(X)的取值是固定的
3.联合熵与条件熵
定义:联合集XY上,联合自信息的平均值定义为联合熵,即:
H(XY)=E[I(aibj)]=−∑∑P(aibj)logP(aibj) H ( X Y ) = E [ I ( a i b j ) ] = − ∑ ∑ P ( a i b j ) log P ( a i b j )
N次扩展信源的数学模型
H(XN)=−∑P(xNi)logP(xNi)=NH(X) H ( X N ) = − ∑ P ( x i N ) log P ( x i N ) = N H ( X )
定义:联合集XY上,条件自信息的平均值定义为条件熵,即:
H(X|Y)=E[I(ai|bj)]=−∑∑P(aibj)logP(ai|bj) H ( X | Y ) = E [ I ( a i | b j ) ] = − ∑ ∑ P ( a i b j ) log P ( a i | b j )
二维平稳信源熵
H(X2|X1)=−∑P(ai)∑P(aj|ai)logP(aj|ai) H ( X 2 | X 1 ) = − ∑ P ( a i ) ∑ P ( a j | a i ) log P ( a j | a i )
4.熵的基本性质
1.熵的链式法则
H(XY)=H(X)+H(Y|X) H ( X Y ) = H ( X ) + H ( Y | X )
若X和Y统计独立,则
H(XY)=H(X)+H(Y) H ( X Y ) = H ( X ) + H ( Y )
N维联合信源熵的链式法则为
H(X1,X2,…,Xn)=∑H(Xi|Xi−1,…,X1) H ( X 1 , X 2 , … , X n ) = ∑ H ( X i | X i − 1 , … , X 1 )
2.非负性、确定性(确知信源熵为0)、对称性(熵只与随机变量的总体结构有关)、扩展性(极小概率事件对熵几乎无影响)
H(X)≥0 H ( X ) ≥ 0
3.极值性
H(X1,X2,…,Xn)≤logq H ( X 1 , X 2 , … , X n ) ≤ log q
当且仅当P(X1) = P(X2) = … = P(Xn) = 1/q,取等号
4.熵的独立界
H(X1,X2,…,Xn)≤∑H(Xi) H ( X 1 , X 2 , … , X n ) ≤ ∑ H ( X i )
H(X|Y)≤H(X) H ( X | Y ) ≤ H ( X )
当且仅当X与Y相互独立时等号成立
5.信源的相关性和剩余度
信源剩余度定义:
设某q元信源的极限熵H∞(实际熵),则定义:
r=1−H∞H0=1−H∞logq r = 1 − H ∞ H 0 = 1 − H ∞ log q
信源实际熵H∞与理想熵H0相差越大,信源的剩余度就越大,信源的效率也越低
关于信源剩余度的思考:
1.为提高信息传输效率,总希望减少剩余度
提高信源输出信息的效率:信源压缩
2.为提高信息传输可靠性,需要一定的剩余度
提高信息传输可靠性:信道编码
数据压缩的基本路径:从H∞到H0,从信源有记忆到信源无记忆,符号相关性减弱
预测编码:根据某种模型,利用以前的一个或几个样值,对当前的样本值进行预测,将样本实际值和预测值之差进行编码
结论1:
有记忆信源的冗余度寓于信源符号间的相关性中。去除它们之间的相关性,使之成为或几乎成为不相关的信源,其熵将增大
结论2:
离散无记忆信源的冗余度寓于符号概率的非均匀分布中。改变原来信源的概率分布,是指成为或接近等概率分布的信源,其熵将增大
6.离散信道
1.信道模型三要素
输入->信道->输出
[XP(x)]→P(y|x)→[YP(y)] [ X P ( x ) ] → P ( y | x ) → [ Y P ( y ) ]
P(y|x)信道转移概率
BSC:二元对称信道
P=[1−ppp1−p] P = [ 1 − p p p 1 − p ]
BEC:二元删除信道
P=[p01−p1−q0q] P = [ p 1 − p 0 0 1 − q q ]
2.平均互信息
信道疑义度(损失熵):
H(X|Y)=−∑∑P(aibj)logP(ai|bj) H ( X | Y ) = − ∑ ∑ P ( a i b j ) log P ( a i | b j )
含义:收到Y后关于X的尚存的平均不确定性
性质:
0≤H(X|Y)≤H(X) 0 ≤ H ( X | Y ) ≤ H ( X )
平均互信息:
I(X;Y)=H(X)−H(X|Y)=−∑∑P(xy)logP(x|y)P(x)=−∑∑P(xy)logP(y|x)P(y)=−∑∑P(xy)logP(xy)P(x)P(y) I ( X ; Y ) = H ( X ) − H ( X | Y ) = − ∑ ∑ P ( x y ) l o g P ( x | y ) P ( x ) = − ∑ ∑ P ( x y ) l o g P ( y | x ) P ( y ) = − ∑ ∑ P ( x y ) l o g P ( x y ) P ( x ) P ( y )
含义:平均从Y获得的关于X的信息量(又称信道的信息传输率R)
互信息:
I(x;y)=logP(x|y)P(x) I ( x ; y ) = l o g P ( x | y ) P ( x )
xy小写,表示由随机事件y中获得具体关于x的信息,可正可负
关系
I(X;Y)=EXY|I(x;y)| I ( X ; Y ) = E X Y | I ( x ; y ) |
平均互信息的性质
1.非负性
I(X;Y)≥0 I ( X ; Y ) ≥ 0
说明:通过消息的传递可获得信息
当I(X;Y) = 0
全损信道:
H(X)=H(X|Y) H ( X ) = H ( X | Y )
P(aibj)=P(ai)P(bj);P(bj)=P(bj|ai) P ( a i b j ) = P ( a i ) P ( b j ) ; P ( b j ) = P ( b j | a i )
2.极值性
0≤I(X;Y)≤H(X) 0 ≤ I ( X ; Y ) ≤ H ( X )
说明:通过传输获得的信息量不大于提供的信息量
当I(X;Y) = H(X)
无损信道:
H(X|Y)=0 H ( X | Y ) = 0
P(x|y)=0或1 P ( x | y ) = 0 或 1
3.对称性
I(X;Y)=I(Y;X) I ( X ; Y ) = I ( Y ; X )
4.凸状性
定理:对于固定信道,平均互信息I(X;Y)是信源概率分布P(x)的 ⋂ ⋂ 型凸函数
定理:对于固定信源分布,平均互信息I(X;Y)是信道传递概率P(y|x)的 ⋃ ⋃ 型凸函数
I(X;Y)=∫[P(x),P(y|x)] I ( X ; Y ) = ∫ [ P ( x ) , P ( y | x ) ]
平均互信息与信源和信道相关
7.信道容量
信道容量的定义:
\[
C = ^{\max}{P(x)}{I(X;Y)} = I(X;Y)|{P(x) - P’(x)}
\]
C是给定的信道的最大的信息传输率
最佳输入分布时,I = C
二元对称信道BSC, C=1−H(p) C = 1 − H ( p )
I(x;y)=H(w+p−2wp)−H(p) I ( x ; y ) = H ( w + p − 2 w p ) − H ( p )
无噪信道:P(y|x) = 0 或 1,I(X;Y) = H(Y)
C=maxH(Y)=logs C = max H ( Y ) = log s
最佳输入:使P(y) = 1s 1 s (输出等概)的输入分布
无损信道:P(x|y) = 0 或 1,I(X;Y) = H(X)
C=maxH(X)=logr|P(x)=1r C = max H ( X ) = log r | P ( x ) = 1 r
r为信道输入符号数目
二元删除信道BEC, C=max(1−q)H(w)=1−q C = m a x ( 1 − q ) H ( w ) = 1 − q ,当w = 12 1 2 时,取最大值
离散对称信道的信道容量
1.对称信道的定义:若一个离散无记忆信道的信道矩阵中,每一行(或列)都是其他行(或列)的同一组元素的不同排列,则称此信道为离散对称信道
强对称信道(均匀信道)定义:若输入符号和输出符号个数相同,等于r,且信道矩阵为:
⎡⎣⎢⎢⎢⎢⎢1−ppr−1...pr−1pr−11−p...pr−1............pr−1pr−1...1−p⎤⎦⎥⎥⎥⎥⎥ [ 1 − p p r − 1 . . . p r − 1 p r − 1 1 − p . . . p r − 1 . . . . . . . . . . . . p r − 1 p r − 1 . . . 1 − p ]
2.对称信道的性质
平均互信息: I(X;Y)=H(Y)−H(Y|X)=H(Y)−H(p′1...p′s) I ( X ; Y ) = H ( Y ) − H ( Y | X ) = H ( Y ) − H ( p 1 ′ . . . p s ′ )
信道容量: C=maxI(X;Y)=maxH(Y)−H(p′1...p′s)=logs−H(p′1...p′s) C = m a x I ( X ; Y ) = m a x H ( Y ) − H ( p 1 ′ . . . p s ′ ) = l o g s − H ( p 1 ′ . . . p s ′ )
最佳输入: p(x)=1r p ( x ) = 1 r
并非所有信道,有p(y)等概
对均匀信道
C=logr−H(1−p,pr−1,...,pr−1)=logr−plog(r−1)−H(p) C = log r − H ( 1 − p , p r − 1 , . . . , p r − 1 ) = log r − p log ( r − 1 ) − H ( p )
8.对称密钥密码
- 加密解密算法公开
- ke=kd k e = k d (或相互容易推出)
- 加密算法足够安全,仅依靠密文不可能译出明文
- 安全性依赖于密钥的安全性,而不是算法安全性
- 算法符号描述: Ek(M)=C,Dk(C)=M E k ( M ) = C , D k ( C ) = M
实现的要求:
- Diffusion(弥散):密文没有统计特征,明文一位影响密文的多位,密钥的一位影响密文的多位
- Confusion(混淆):明文与密文、密钥与密文的依赖关系充分复杂
- 实现混淆和弥散的基本方法:替代和置换
9.一般离散信道的信道容量
一般离散信道的平均互信息I(X;Y)达到极大值(即等于信道容量)的充要条件是输入概率分布 Pi P i 满足:
(a) I(xi;Y)=C对所有xi其Pi≠0 I ( x i ; Y ) = C 对 所 有 x i 其 P i ≠ 0
(b) I(xi;Y)≤C对所有xi其Pi=0 I ( x i ; Y ) ≤ C 对 所 有 x i 其 P i = 0
最佳输入不唯一
10.波形信源与波形信道
1.连续性信源的熵
信源X的相对熵(差熵):
H(X)=−∫bap(x)logp(x)dx H ( X ) = − ∫ a b p ( x ) log p ( x ) d x
2.相对熵
h(X)=−∫bap(x)logp(x)dx h ( X ) = − ∫ a b p ( x ) log p ( x ) d x
h(X|Y)=−∬p(xy)logp(x|y)dxdy h ( X | Y ) = − ∬ p ( x y ) log p ( x | y ) d x d y
h(XY)=−∬p(xy)logp(xy)dxdy h ( X Y ) = − ∬ p ( x y ) log p ( x y ) d x d y
3.连续性信源熵的性质
(a)链式法则和独立界
h(XY)=h(X)+h(Y|X)=h(Y)+h(X|Y) h ( X Y ) = h ( X ) + h ( Y | X ) = h ( Y ) + h ( X | Y )
当X、Y独立时,h(XY) = h(X) + h(Y)
h(X|Y)≤h(X),h(Y|X)≤h(Y),h(XY)≤h(X)+h(Y) h ( X | Y ) ≤ h ( X ) , h ( Y | X ) ≤ h ( Y ) , h ( X Y ) ≤ h ( X ) + h ( Y )
(b)可为负
连续信源 x∈[a,b] x ∈ [ a , b ] 均匀分布,熵为:
h(X)=∫ba1b−alog(b−a)dx=log(b−a) h ( X ) = ∫ a b 1 b − a log ( b − a ) d x = log ( b − a )
若b-a<1 ,则h(X) < 0
(c)变换性
坐标变换为线性变换,即: yi=∑bijxj y i = ∑ b i j x j ,则 ∣J∣ ∣ J ∣ = ∣∣bij∣∣ ∣ ∣ b i j ∣ ∣ ,
有: h(Y)=h(X)+log∣∣bij∣∣ h ( Y ) = h ( X ) + log ∣∣ b i j ∣ ∣
(d)凸状性
h(X)为p(x)的上凸函数,对某种p(x)的分布,h(X)可达到最大值