备考通信复试过程中的一些知识点总结梳理——信息论基础知识

终于进入信息论的部分啦,信息论的部分条理很清晰,是一定要做到熟悉的部分。

首先还是来定义一下,什么是信息论?信息论书面的来讲就是运用概率论和数理统计方法研究信息,信息熵,通信系统,数据传输,密码学,数据压缩等问题的应用数学学科,通俗的来讲信息论就是研究信息的理论。信息,可以说是一个因人而异极具主观特征的概念。开始时,大家都不知道如何对信息量化定义,是定义它的长度还是它的数值?似乎都不太妥当。直到香农出现,提出了新的概念,那就是信息的大小与他的数值无关,也就是和你怎么说,说几个字没有关系,信息量的大小更重要的是取决于它出现的概率大小。如果该信息所对应的出现概率小,那么当它出现时自然有很大的信息量。在这种定义方式下,香农提出了信息量和信息熵的概念。

信息量根据研究对象的不同可分为自信息量,互信息量。自信息量用来衡量单一事件发生时所包含的信息量多寡或者说一个随机事件发生某一结果后所带来的信息量。它的单位是bit,或是nats,公式如下:

自信息依赖于信息的概率分布,而不依赖于它的真实值

互信息表示通过观察y你可以获取多少x的信息量,或者说你接收到y后,x的不确定度下降了多少。如通信系统中发送x,接受y,那么互信息就是有噪信道所传递的信息量。

熵本来作为一个物理名词,用于形容物质的混乱程度,而这个概念转移到信息论中,信息熵就表示信息的混乱程度,更直白的讲,信息熵就是接受者事先在接受到的消息中未能预料到的信息部分,也就是信源的平均不确定度信息的本质是熵的减少量,熵是对未知的度量,熵减少意味着未知程度减少,也就是释放了信息。信息熵在数学上表示为消息所对应的概率的负对数的数学期望,它具有非负性。

信息熵与信息量的概念极易混淆。信息熵表示信源输出前信源的平均不确定度,信源输出后平均每个离散消息所提供的信息量。也就是信息熵是信源所有消息的平均值,而不是某条消息,它是在不知道x时的不确定性大小,是知道x之后所获得的平均信息。再换个角度说,熵就是自信息的期望。(有点绕,得多理解一下)

当信源等概传输时,熵有最大值,也成为最大熵定理。

条件熵是信宿在收到Y之后信源X仍存在的平均不确定度,H(X|Y):收到Y情况下反推X称为信道质疑度H(Y|X):已知X推Y称为噪声熵。(注意H(X|Y)≠H(Y|X))由信息熵的极值性可得条件熵小于信源熵。

这些概念之间的关系可以由下图形象的体现出来:

备考通信复试过程中的一些知识点总结梳理——信息论基础知识_第1张图片

香农第一定理指出,无失真编码的最小位数就是原始信源的信息熵,如果低于这个极限就不可能实现无失真编码,这个定理也叫做可变长无失真信源编码定理。但是在实际的运用过程中,模拟信号数字化注定会产生失真,包括一些信息熵较大的数字信源在传输过程中也不免要进行有损的传输。那么在这种有损的实际情况下,第一定理不再适用,因而香农提出了第三定理保真度准则下的信源编码定理,或称为有损信源编码定理。它指出只要码长足够长,总可以找到一种信源编码,使得编码后的信息传输速率略大于率失真函数,而码的平均失真度不大于给定的允许失真度。(给出了不影响信息读取的最大失真度,是量化、数模转换、频带压缩和数据压缩的理论基础)这便是第二个重要的概念,率失真函数。

率失真函数就是表征给定失真度下编码器最小的平均输出码率的函数。也就是在信道速率为R时,能达到的最小失真度为D,信道失真度为D时,所需的最小信道速率是R,无损编码就是:D=0,R(D)=H(X)。同时率失真函数R(D)也可表示为发送信息与接受信息的最小互信息量值,也就是说在有失真的情况下只希望传递最关键的最少的信息量。

举个例子,一个人养了几年的宠物狗不幸因病去世了,医院给这位狗主人发送消息。无失真传输可能就是:亲爱的,我知道狗狗对你很重要,你们相伴了多年的时光@#¥*!)!*#,它度过了快乐的一生,有你这样的主人是它的荣幸,如今它回到汪星了,也希望你节哀顺变。表达了医生的对狗主人的同情和安慰,也告知了狗狗离世的消息,甚至某种程度体现了医生的文采。可如今,信道资源有限,我们必须有损传输。允许的最高失真度就是狗主人要知道狗狗离世的消息,也就是最小的互信息量,那么医生就必须舍弃其他那些不重要的安慰等等,直接一句话给狗主人:你狗無了。允许失真程度小一点,可能医生要说:不好意思,你狗無了。浅表一下同情。

香农的三大定理还有最常见的一条,香农第二定理有噪信道编码定理。当信道的消息传输速率不超过信道容量时,采用合适的信道编码方法可以实现任意高的传输可靠性,但是如果信息传输速率超过了信道容量,就不可能实现可靠传输。信道容量也可以表示为互信息的最大值,其意义就是在充分运用信道的情况下,能够传递的最大信息量。粗略的讲,在有错误的信道上,只要信息率不大于信道容量,就可以实现无错误的可靠通信,也就是说C是可靠通信的最高允许速率。第三定理的常见形式就是高斯信道容量公式:C=Wlog(1+S/N)。它指出的信道容量的关键参量,带宽,信噪比之间的关联,说明信道容量的大小不但取决于带宽,也依赖于各种高效率的调制和编码技术

综上我们围绕着香农三大定理介绍了三个基本概念,也就是无失真编码,传输的编码平均码长不得小于H(X)(香农第一定理,或信源编码定理),可靠通信的最大信息率不得大于信道容量C(先攻第二定理,或信道编码定理),对于无记忆信源,失真限定D以内的编码器最小平均输出码率为R(D)(香农第三定理,或失真条件下的信源编码定理)。香农定理只给出了信息论的一些界限,却没有给出具体方法。接下来我们就介绍在香农定理下的这些编码方式。

你可能感兴趣的:(概率论,机器学习,人工智能,数字通信)