通信的数学理论

通信的数学理论

近年来像PCMPPM这些交换信号噪音比带宽等的多种调制方法的发展已经增强了我们对一般通信理论的兴趣。这种理论的基础包括在重要的报纸and 中关于此学科的内容。在当今的报纸中我们将延伸这种理论从而包括许多新的因素,特别是噪声通道的影响,和存储可能的基于最初信息统计的结构和基于数据的最后目的性性质。

通信的基本问题是再制造一点或者准确地或者近似地一个从别处挑选的信息。通常信息有意义;那是他们提到的或是依照一些特定物质或概念上实体的系统的相互关联。这些与语意有关的通信方面是不切题的工程问题。重要的方面是真实的信息是从一组可能的信息挑选来的。系统一定要有计划的操作每个可能的选择, 而不仅仅是哪一个因为在设计的时候是未知者将会被选择。

如果设备的信息数目是有限的,那么这组数字或一些具有单调功能的数字可以被当做对信息被关闭后再创造的测度, 所有的选择有相同的可能。像Hartley所指出的,最自然的选择是对数的功能。虽然当我们考虑统计信息的影响力以及对信息的持续排列这个定义必须被凝练地概括,我们将在所有情况下用一个本质为对数的量度标准。

对数的测度更方便,主要有以下多方面的理由:

1. 它在实践上更有用。工程的重要参数,像时间、带宽、数字的分程传递等等,趋向于随可能数字的对数线性改变。举例来说,增加一个继电器到小组会加倍数字的可能情形。它加1到以2为底的对数。加倍时间大致得到可能信息数目的平方,或加倍其对数,等等。

2. 它以适当的尺寸接近我们的直觉感观。如果我们直觉地用共同的标准线性比较测量实体,它将接近相关到(1)。有一个想法,举例来说,二张穿孔卡片与一张相比有两倍的信息储藏能力,并且二个通道与一个相比有两倍的传输数据的能力。

3.它在数学方面更合适。许多极限运算在对数方式下很简单,但是在普通数字下却需要笨拙的重述。对数底的选择对应测量信息单位的选择。如果以2为底,产生的单位可以叫二进位数字,或比较简要地叫比特,一个由J.W.Tukey建议的词。一个拥有两个稳定位置的设备,像一个继电器或一个双稳态多谐振荡器,可以存储一比特的信息。N个如此的装置能存储N比特的信息,因为可能情形的总数是

信息来源 传达者 接受者 目的地

信号 接收信号 信息

干扰源

1—一个常规信息系统原理图

并且。如果以10为底产生的单位可以叫十进制数字。因为

,“某些影响通报速度的因素”贝尔系统科技刊物,19244月,第324页;“电报传输理论中某些总联机程序和信息控制系统”, A.I.E.E. Trans.v.47,19244月,第617页。

,“信息传输”,贝尔系统科技刊物,19287月,第535页。

一个十进制数大约比特。书桌上的一个阿拉伯数字计数器有十个稳定的位置并且因此拥有存储十进制数字的能力。有时在综合和区分的解析工作中底数很有用处。以此为底的信息结果将被叫做自然对数。将底数由a改为b仅仅需要乘以

对于通信系统我们想要用一个系统的示意图图1阐明。它包括五个重要的部分:

1.一个制造信息或排序信息的信息源将被传达到终端。信息可能有各种不同类型:(a)电传打字系统的电报中的字母序列;(b)无线电话中的一个单一时间函数f(t);(c)一个时间函数和其它应用在黑白电视机中的变量—在这里信息可能被当做一个二个空间坐标和时间的函数f(x,y,t);在点(x,y)的光强度,在光的金属板上获得的时间t;(d)二或更多的时间函数,分别为f(t)g(t),h(t)—这是“三维”声音传播的情形,或者若系统有意维修个别多元通道;(e)一些变量的一些函数—在彩色电视机中有三个函数f(x,y,t),g(x,y,t),h(x,y,t),定义在一个三维空间的闭联集中—我们也可能想像这三个函数作为一个定义在区域矢量场的向量分量—同样地,个别黑白电视机消息来源是许多三个变量的函数;(f)不同的混合物也会发生,例如在电视机中有联合的音频信道。

2.用一些方法操作信息以产生在信道上传输的合适信号的传达者。在电话制造中这种操作包括的仅仅是替换躁声压力为电流。在电信技术中我们有产生一系列点、莫尔斯电码、空间等相关信息信道的编码、译码的操作。在一个多元的PCM系统不同的语音函数必须被取样压缩, 量子化和编码,而且最后完全交叉存取地构造信号。声音传播机系统、电视和频率调制器是其他的联合体操作应用于信息以获取信号的例子。

3.信道只是用来从传达者到接收者传送信号的媒介。它可能是一双电线、一个同桥电缆、一条无线电电波,一个光束,等等。

4.接收者通常完成由传达者做的反运算,重建来自信号的信息。

5.目的地是信息对其有意的人(或者事物)。我们希望考虑特定的一般问题用于信息系统。这首先需要描述不同数学实体的相关原理,将他们的物理副本合理的理想化。我们大致把通信系统分为三大类:离散的,连续的和混和的。离散系统对于我们就意味着信息和信号是一系列的离散符号。一个典型的情形是在电信技术中消息是一系列的字母和信号点、莫尔斯电码及空间。连续型的系统就是一个信息和信号都被看作是连续函数的系统,例如无线电通信或电视机。混合系统中既有离散的又有连续的变量,例如PCM语言传输。我们首先考虑离散的情形。这种情形不仅应用于通信理论,而且应用于计算机理论,电话局和其他领域的设计。另外离散的情形构成在下半页要处理的连续和混合情形的基础。

第一部分:离散的无噪声系统

1.离散的无噪声信道

电传打字机和电信技术是离散信道上信息传输的两个简单例子。一般来讲,一个离散信道就意味着一个系统怎么从可以从一个点传到另一个点被传输的有限集合元素符号选择次序。每一个符号被假定有确定的连续时间秒(对于不同的没必要相同,例如电信技术中的点和莫尔斯电码)。这不需要有可能传输到系统的的所有可能排序,确定次序仅仅是可能被允许。这将在信道产生可能的信号。这样在电信技术中可以推想符号有:(1)一个点,包括一个单位时间的关闭和一个单位时间的线性开启;(2)一个莫尔斯电码,包括三个单位时间的关闭和一个单位时间的开启;(3)一个包括三个单位时间线性开启的字母空间;(4)一个包括六个单位时间线性开启的词空间。我们可能放置约束在允许的无间隔的次序(因为如果两个字母的间隔是接近的,它同一个字空间是一样的)。我们现在要考虑的问题是如何测量这样一个信道传输信息的能力。

在电传打字的情况下所有符号有同样的持续时间,并且32个符号任何排序答案是简单的。每个符号拥有5比特的信息量。如果系统每秒传输n个字符,那么自然来说信道有一个每秒5n比特的传输能力。这并不意味电传打字信道总是这个传输速度,这是可能的最大值并且实际比率能否达到最大值取决于进入信道不久将会出现的信息源。

在不同长度的符号和约束的允许序列的更普通情形中,我们作以下定义:

定义:一个离散信道容量C由此公式给出:

其中N(T)是持续时间为T时允许信号数目。

很容易看出在电传打字的情形下降低了当前的结果。可以看出问题中的极限在多数情况的影响下存在一个最终的数目。假使所有符号的次序都可能发生,并且这些符号的持续时间为。信道容量是多少?如果N(T)代表为期t的次序数目,我们就有

总数目等于以为结尾的序列数目的总和并且是。根据一个著名的有限差结果,N(t)于是渐进大数t,其中是特征方程式的最大解:

因此

在允许序列受限制的情况下我们也有一个此种类型的不同方程式并且从特征方程式中得到C。在以上提到的电信技术我们知道依照最后或几乎最后出现的序列计算符号序列。

因此C等于。其中是方程的根。我们可以解得C=0.539。一个置于允许序列约束的普通类型如下:我们想象一个可能的数字序列。对于每一种情形仅仅设置中的某些符号可以被传输(不同的子集有不同的情形)。当其中之一被传输,就产生一个取决于老状态和当前传输信号的新状态。发电报就是这其中的一个简单例子。存在两个取决于是否是一个空间最后传输信号的状态。如果这样的话,那么仅仅一个点或一个莫尔斯电码可以被发送并且状态经常改变。如果不是的话,一些信号可以传输并且若空间被发送状态将改变,否则它保持不变。这种情形可以在线状图图2中阐明。 莫尔斯电码

字母空间 莫尔斯电码

词空间

2—电报符号约束的图表

状态和线相应的那些连接点指示着状态中的可能符号和结果状态。在附录1中可以看出如果允许序列的条件可以被描述在形态C中,结果将存在并且计算出它与以下结果一致:

定理1:以为从状态i到状态j的允许符号的周期。那么信道容量C等于,其中W是行列式方程式的最大实根:=0

其中若i=j则,否则

例如,在电报情形(图2)中行列式是:=0

在扩充式中这将导出以上这种情形所给的方程式。

2.信息的离散信源

我们已经看到在普通情况下可能信号的数目的对数在离散信道中随时间线性增长。信道容量可以由给出的增长率说明,每秒的比特数目需要详细说明所用的特殊符号。

我们现在考虑信息源。如何将信息源用数学方式描述,在所给信源每秒产生多少信息位呢?这个问题的关键是关于降低信源必需的信道容量的统计知识的影响,通过利用适当的信息编码。在电信技术中,例如,包括字母序列的被传输信息。然而,这些序列并不是完全随意的。一般而言,他们组成句子并且有所谓英文的统计结构。字母E比字母F出现的频繁,序列TH比序列XP出现的频繁,等等。这个结构的存在通过适当地编码信息序列到信号序列能节省时间(或信道容量)。这已经被用来通过利用最短的符号信道、点、最常见的英文字母E限制宽度,然而少见的字母Q,X,Z用长点的点和莫尔斯电码表示。

这个方法还被广泛应用于商业编码,其中常见字和短语是由极大地缩短平均时间的4或5位信码群表示。现在运用的标准问候和周年纪念电报扩充这一点到编码一到两个句子为相关的短的数字序列。

我们可以考虑一个离散信源作为由符号产生的信息、符号。它通过某些可能的依靠选择连续的符号,一般的,在前述的选择,像问题中的特殊符号。一个物理系统,或是一个产生由可能集合支配的符号序列的系统的数学模型,叫做随机过程。我们可以考虑一个离散信源,因此,将通过一个随机过程描述。相反地,有一些随机过程,它们产生离散的选自被认为是离散信源的有限集的符号序列。这将包括如下情形:

1. 自然书写语言如英语、德语、汉语。

2. 由量子化过程离散呈递的连续信息源。例如由PCM发射机发送的量子化演说,或者一个量化电视信号。

3. 在数学情形中我们仅仅定义抽象的产生符号序列的随机过程。如下是最终资源类型的例子。

(A)假设我们有5个都以0.2的可能性被选择的字母ABCDE,连续选择是不受约束的。这将产生一个序列,如下就是一个典型例子。它利用随机数字表格构造的。

B D C B C E C C C A D C B D D A A E C E E A

A B B D A E E C A C E E B A E E C B C E A D

,例如, S. Chandrasekhar,“物理学和天文学中随机问题,”现代物理学的回顾,v.15,No.1,1943年一月,第一页.

,随机取样数字的表格,剑桥,1939.

(B)用五个发生概率分别为0.4,0.1,0.2,0.2,0.1的同样字母,连续选择是不受约束的。一个来自信源的典型如下:

A A A C D C B D C E A A D A D A C E D A

E A D C A B E D A D D C E C A A A A A D。

(C)如果连续的符号没有被独立地选择,但是他们的概率取决于在前的字母,一个更复杂的结构将会获得。在简单的情况下,这种类型的选择取决于在前的字母并且不是它们之前的。统计结构然后就通过一个跃进概率集合描述,字母j的发生概率在i之后。复数i和j涉及所有的可能符号。第二个相等方法的指定结构是给出两个字母的概率p(i,j),也就是两个字母i,j的相关概率。字母频率p(i),(字母i的概率),跃进概率和连字概率

有如下公式的关系:

举一个具体的例子,假设有三个如下概率表所示的字母A,B,C:

j i p(i) j

A B C A B C

A 0 A A 0

i B 0 B B 0

C C C

一个消息源的典型信息如下:

A B B A B A B A B A B A B A B B B A B B B B B A B A B A B A B A B B B A C A C A B

B A B B B B A B B A B A C B B B A B A.

其次,复杂性的增加将包括最多三组字母的频率。字母的选择将依赖在前的两个字母而不是之前的信息点。一个三组字母频率p(i,j,k)的集合或者等同的蜕变概率的集合是必需的。这种方法持续进行将获得更多持续的复杂的随机过程。在普通的n元情形中用一个n元概率或者转变概率的集合来指定统计结构是必需的。

D)随机过程也可以由产生一段包括序列“字”的正文来定义。假设有语言中的五个字母ABCDE16个“字”,且它们的联合概率如下:

10 A 16 BEBE 11CABED 04DEB

04ADEB 04BED 05CEED 15DEED

05ADEE 02BEED 08DAB 01EAB

01BADD 05CA 04DAD 05EE

假设连续的“字”被独立地选择并且被空间隔离。一个典型可能信息为:

DAB EE A BEBE DEED DEB ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BED DEED

DEED CEED ADEE A DEED DEED BEBE CABED BEBE BED DAB DEED ADEB。

如果所有的字长度有限,这个过程就相当于前述类型的其中之一,但是如果按照字结构和概率描述可以更简单。我们也在此归纳并且介绍字之间的蜕变概率,等等。

人工语言在构造简单的问题和说明不同可能性的例子是有用的。我们也可以通过一系列简单的人造语言的方法接近自然语言。零号近似值可以通过等可能并且独立地选择字母来获得。一号近似值可以通过独立地选择连续的字母获得,但是每个字母像自然语言那样拥有同等的发生概率。这样在一号近似值中对于英语来说,E以0.12(它在标准英语中出现的频率)的概率被选择并且W的发生概率为0.02,但是邻接字母之间没有影响并且没有形成像TH,ED这样的首选连字,等等。在二号近似值中介绍了连字结构。一个字母被选择后,下一个字母与频率被一致地选择,其中不同的字母跟随第一个字母。这需要一个连字频率的表格。在三号近似值中介绍了三组字母结构。每个字母被等可能选择并且取决于前两个字母。

3.英文近似值的连续性

给一个这个系列过程如何接近一门语言的形象想法,英文近似值的典型序列已经被构造并且在下面给出。在所有情形中我们假定一个27字符的“字母表”,26个字母和一个空格。

1.零号近似值(符号独立且等可能出现)

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZL-

HJQD.

2. 一号近似值(符号独立但是以英语原文的频率出现)

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA

NAH BRL.

3.二号近似值(英语中的连字结构)

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE

AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE.

4.三号近似值(英语中的三组字母结构)

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES

OF THE REPTAGIN IS REGOACTIONA OF CRE.

5.一号字近似值。胜于连续的四个字母,...,n元结构更简单并且更好地接受点到字单元,在此字被独立地选择,不过是以它们适当的频率被选择。

REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL

HERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHES

THE LINE MESSAGE HAD BE THESE.

6.二号字近似值。字蜕变概率是恰当的,但是不包括更深的结构。

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER

OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT

THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.

普通英语原文的类同之处在以上每步显著增加。注意这些样品有适度优良的结构,计算它们的造句,表现出两倍的范围。这样在(3)中对于两字母次序统计过程确保了合理的原文,但是

字母,连字和三组字母频率在1939年由Fletcher Pratt, Blue Ribbon Books所著的紧急秘密。字频率在由G. Dewey所著、哈佛大学出版社印刷的英语语言的相关频率中被列成表格。

样品中四字母次序通常适用于好句子。在(6)中四个或更多的字可以很容易地放在句子中而没有不平常的、做作的句子。十个词的详细次序““attack on an English writer that the character of this(抨击这种特征的英国作家)”根本不合理。由此看来一个十分复杂的随机过程将会给离散信源一个满意的表示法。

头两个例子是应用随意数字的一本书构造的,其中随意数字关联一个字母频率表格(对于例2)。这种方法可能已经延续到(3),(4)和(5),虽然连字、三组字母和字母频率表格是有用的,但是一个更简单的等价方法正被应用。比如构造(3),一个人随机地打开一本书,并且在该页随机地选择一个字母。将此字母记录。然后打开该书的另外一页并且读到这个字母出现时,随后的字母然后被记录。翻到另外一页找到第二个字母并随后记录,等等。一个简单的过程被用在(4),(5)(6)中。如果深一层近似值被构造,那将会是有趣的。但是下一阶段相关的详细分析变得庞大。

4.一个马尔可夫过程的图形表示法

以上描述的这种类型的随机过程在数学中叫做离散的马尔可夫过程,并且在文献中广阔地研究。大体情况可以描述为如下:存在一个有限个数的系统的可能状态;。另外有一套蜕变概率,如果此刻系统状态是,将达到状态的概率是。要将马尔可夫过程转变为信息源我们仅仅需要假定字母是由每次从一个状态转变到另一个状态时产生的。状态符合来自前述字母的“剩余物的影响”。

该情形可以被描述为图表,在图3,4和5中显示。

A

4 1 B

E 2

1 C

D 2

图3—一个符合例B中信源的图表

此状态是图中的连接点,并且概率和字母产生的转变在旁边的相应直线给出。图3对应第2部分的例B。而图4符合例C。在图3中,因为连续字母不受约束,只有一个状态。

C B

A A

2 5 5 8

B

C B 4 5

1

图4—一个符合例C中消息源的图表

在图4中有字母数目相等数目的状态。如果构造一个三组字母的例子,将出现至多个状态,符合前述被选择的可能出现的字母对。图5是一个说明在例D中词结构情形的曲

了解详细的处理见M.Frechet,数据加密,巴黎,高塞尔-维拉斯,19388

线图。这里S代表“间隔”符号。

5.遍历信源和混合信源

正如我们以上已经说明的,按我们意原的离散信源可以被看作是由马尔可夫过程描述。在可能的离散马尔可夫过程中有一个在通信理论中有意义的特殊性质的组。特殊类包括“遍历”过程,我们把相应的信源叫做遍历信源。尽管一个遍历过程的严格定义有些棘手,其常规思想是简单的。在一个遍历过程中由此过程产生的序列的统计特性是相同的。这样的字母频率、连字频率等等从特殊序列在获得,将随着序列长度的增加,接近不受特殊序列约束的确定极限。事实上这对每个序列并不全对,但是错误的概率几乎为零。大致上遍历性意味着统计一致性。

以上所给的所有人工语言的例子是遍历的。这种特性涉及到相应图表的结构。如果图表有如下两个性质,相应过程将被遍历:

1.这个图表不包括两个独立的部分A和B,这样就不可能顺着图中曲线的箭头方向从A部分的连接点到B部分的连接点,也不可能从B部分的连接点到A部分的连接点。

2.图表中的封闭谱线系伴随线上的所有箭头指向同样的方位叫做一个“回路”。回路的“长度”是其中直线数目的个数。这样在图5中系列BEBES是长度为5的回路。第二个需要的特性是图表中所有回路长度的最大公约数是一。

D E

E B

E B

S A D E

B A D E

S B E D

C A E E B B

D E

A D B

E E

A

S

图5—一个符合例D中消息源的图表

如果满足第一个条件,但是由于最大公约数等于d>1而不满足第二个条件,序列将有一个确定的周期结构类型。不同的序列分成d种类型,它们统计上相同,除了起源的变化(也就是,序列中的字母被叫做字母1)。通过从0到d-1的移位一些序列可以统计上等于其它的构造。d=2时的一个简单例子如下:有三个可能的字母a,b,c。a后出现b或c的可能性分别为a后面跟随着bc。这样的一个典型序列是

a b a c a c a c a b a c a b a b a c a c。

这种情形的类型对我们的工作不太重要。

这些根据在Fr´echet中给出的图表条件被重述

如果不满足第一种条件,图表可能被分成一系列满足第一种条件的子图。我们假定每个子图也满足第二种条件。我们有这种由许多纯粹成分组成的叫做“混合”信源的情形。其成分符合各种各样的子图。如果是信源成分,我们可以写出

其中是信源成分的概率。

自然的描绘情形如下:有几个不同的信源每个都有同类的统计结构(也就是,它们是遍历的)。我们不知道预先将被用到的,但是一旦序列以所给的纯信源成分开始,它依照那种成分的统计结构不确定地延续。

作为一个例子我们可以获得两个以上定义的过程,并且假定。一个来自混合信源的序列将通过首先以0.20.8的概率选择,此选择之后产生来自任意一个被选择的序列。

除了当反面是一定的,我们设想信源将被遍历。假设能够让我们顺着一个伴随全体可能序列平均数(差异的概率为零)的序列确定平均数。例如在一个特殊无限字母序列中A的相关概率将可能等于序列全体中它的相关频率。

如果是状态的发生概率并且是到状态的蜕变概率,然后过程将会固定,显然必须满足均衡条件:

在遍历情形中可以看出伴随着一些起动条件状态j在N个符号后的概率是,当

时逼近平衡价值。

6.选择、不确定性和熵

我们已经将离散信源描绘为一个马尔可夫过程。我们能否定义一个参量,它在某种意义上测量这样一个过程或字母产生多少信息,以什么样的比率产生信息。

假如我们有一组发生概率为的可能事件。这些概率是知道的,但是那是我们所有知道的关于将发生的事件。我们能否找到一个相关事件有多少“选择”或结果有多少不确定性的量度标准呢?

如果有这样一个量度标准,比方说,如下所需的性质是合理的:

1.在概率是连续的。

2.如果所有的概率等于,那么应该是一个关于n的单调递增函数。当存在更多可能的事件时,等可能事件有更多选择或不确定性。

3.如果一个选择被分为两个连续的选择,最初的应该是的个体价值的加权和。这句话的意义会在图6中举例说明,在左图中我们有三个概率。在右图我们

1/2 1/2

1/3 1/2

2/3

1/6 1/2 1/3

1/3 1/6

图6—三个可能选择事件的分解

先以的概率选择两个可能事件,如果第二步以的概率做另一步选择。最后的结果有同以前同样的概率。我们在这种特殊情况下得出

系数是因为第二个选择以一半的时间发生。在附录2,有如下确定结果:

定理2:满足以上三个假设的有如此形式:

其中是一个确定的常数。

这个理论,和对其进行证明所需的假设,对于当前理论并不需要。这首先给出一些我们稍后定义的有确定理由的参与。然而这些定义的真正理由隐藏在暗示中。

形态的数量(恒量K仅仅等于度量单位的选择)作为信息、选择和不确定性的测度在情报理论中起到了一个中心的作用。形态被认作是熵,作为定义在一定的用公式表示的统计力学,其中是它的拓扑空间中系统处于单元的概率。然后,例如Boltzmann的著名的定理。我们把叫做一系列概率的熵。如果是一个机遇数,是它的熵,这样的不是一个函数的自变量而是一个数字标志,区别于来说是概率y的熵。

熵的两种情形的概率分别为,即

作为p的一个函数在图7中绘出。

H值有许多有趣的性质,更深层地证实它是一个衡量选择和信息的合理量度标准。

1.如果除了一个,所有的概率都为0,那么,这个具有联合价值。这样仅仅是当我们确定H0结果,否则H是正的。

2.对于一个给出的n,H在所有相等,也就是()时取得最大值。这也是一个直观的最不确定的情形。

3.假设有两个事件xy,问题中前者有m种可能,后这有n种可能。若事件一发生的概率是,事件二发生的概率是,其联合事件的概率是,那么联合事件的熵是

审视,实例R. C. Tolman,统计力学原理牛津大学出版部,1938

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

7—两种概率分别为的情形的熵

很容易知道

仅仅当事件独立时等号成立(也就是)。联合事件的不确定性小于等于个体不确定性的总和。

4.对均等概率的一些改变会使增大。这样如果并且我们等量地增加,从而使更接近,那么将会增大。一般地,如果我们执行形态中均衡的操作,其中,并且所有的,那么将会增大。(除了转变总数不超过的排列伴随着保持不变的特殊情形)。

5. 假设有两个像3中的可能事件xy,而且它们没必要独立。对任何事件x的值,可以假定有一个条件概率,其中事件y的值为。这由等式给出。

我们定义y的条件熵作为对于每一个x值,y的熵的平均数,通过获得特殊事件x的概率权衡。即

这个量测试当我们知道事件x时y的平均值的不确定性。取代的值我们得到

联合事件xy的不确定性(或熵)等于事件x的不确定性加上当知道事件x时事件y的不确定性。

6.从3到5我们得出

因此

事件y的不确定性不会由于知道事件x而增加。除非事件xy是独立事件这种不确定性不变的情形,它将会减少。

7、信源熵

考虑一个有限离散信源的所有情况,对于每一个可能的状态,会有一系列可能发生的概率为。由此得到对于每一个可能的状态下的熵,对所有发生的状态的熵进行加权平均得到该信源的信源熵为:

这是符号集里每个符号所携带的信息量,如果马尔科夫过程在单位时间内发生,则它为每秒的平均信息量

为状态出现的平均概率)

显然有: (m为平均每秒钟产生的符号数)

表示信源平均每个符号(每秒)产生的信息量。如果选取以2为基数,则单位为比特每符号(每秒)。

如果所有的符号相互独立,则可简单的表示为。理所当然,在这种情况下,我们考虑一个由N个符号组成的长序列信息,它由出现概率相对高的字符组成,其第一个字符出现的次数为,第二个字符出现的次数为……。这种信息出现的概率为:

大约等于这一序列信息的概率的倒数的对数除以序列的符号个数,且对任意的信源都有这一结果。更精确的表达如下(见附录3):

定理3:对任意给点的 和 ,存在 ,使得当这一序列信息的长度 时有如下两点成立:

1、 其发生的概率小于 ;

2、 所有的参数满足不等式

也就是说当足够大时,可以确定可以无限的接近

大量序列的不同概率会无限的接近某个结果,再考虑序列的长度,对它们按概率的递减顺序进行排列。我们定义为的那些序列中最有可能发生的概率且用来计算。

定理4

不等于01时,有

当我们只考虑最有可能发生序列的总概率时,我们可以将解释为指定某序列时所需要的比特数,因此即为平均每个符号所需要的比特数,这定理表明对于较大的数,发生概率和熵相互独立。所有可能序列数的对数的增长率由确定,与发生的可能性无关。结果的证明过程在附录3中。对于长序列中,仅有个是最常用的,每一个被使用的概率为

下面的两个定理表明可以通过信息序列的统计数据直接算出来,不涉及状态转移概率。

定理5:设:为消息中符号序列的发生概率,

,(求和中要遍及所有含个符号的序列

则:关于单调递减,且

定理6:设:同时发生的概率,为在条件下发生的概率。设

(求和中要遍及所有含个符号的序列

则:

上述结果的证明过程在附录3中,这表明一系列近似计算的方法可以通过仅考虑序列中的第12、…、个符号的统计数值表得到,是一个比较精确的近似值。实际上,为所有信源类型的个次序的近似值,也就是说下一个字符的产生只与前面的个符号相关,与再前面的符号无关,则即为下一个符号产生的条件熵,当前面的个符号已确定时,则为个符号中平均每个符号的熵。

当重复出现相同的字符时,信源熵的比率得到最大值,叫做相对熵。这就是对字母进行编码时的最大压缩。不考虑超过8个字母长度的统计数值表,普通英语的冗余度大约为50%,这也就是当我们写英语时,我们所写的一半被语言结构所决定,另一半可以自由选择。50%的数字是通过相邻的结果再利用一些独立的方法得到。一是通过计算英文的近似熵;第二种方法是从一个简单的英文文章中删掉一些确定的字母片,然后尝试恢复它们,如果删掉的50%都能被恢复出来,则冗余度就会大于50%;第三种方法是依靠密码系统的已知结果。

英语散文的两种极端冗余度代表为基础英语和詹姆斯·乔伊斯的书“芬尼根的苏醒”。基础英语词汇限制在850个单词,且冗余度较高。当一段落翻译成基础英语时会出现反射性的扩充。乔伊斯在另一方面扩充词汇,并且声明实现压缩的内容。

语言的冗余度与纵横字谜的存在有关,若冗余度为0,字母的任何次序在语言中都时合理的正文,并且任意的二维字符排列形成一个纵横字谜。如果冗余度太高,这语言就可能会为比较多的纵横字谜强派大量的约束,通过更多的明细分析得出:如果我们被语言强行约束会更加混乱、更无规则。当冗余度为50%时,大的纵横字谜游戏仅仅成为可能,如果冗余度为33%,三位的字谜游戏就可成为可能。

8.表示编码和解码的运算

我们仍然需要用编码和解码信息给传输者和接受者表示数学操作。它们中的任何一个都将被称作传感器。一连串的输入标号被输入进传感器并且一连串的输出标号被传感器输出。这个传感器可能有一个内存输出,不但依靠当前的输入标号,而且依靠过去的标号。我们假设内存有限,例如:存在一个有限的m代表传感器,然后输出一个函数表示当前的状态和当前的标号。下一个状态将有第二个函数和两个变量。因此,这个传感器可以用如下的两个函数描述:

这里:

代表的输入标号,

代表的提出的输入标号的传感器状态,

代表如果状态是的已知的输出标号(或者一连串的输出标号)。

如果这个传感器的输出标号可以在一秒内辨认出输入标号,它们可以连接到的结果也是一个传感器。如果存在第二个传感器,它操作输出第一个并恢复原有的输入,那么第一个传感器将被称作反向的。

定理7:被一个有限状态统计资源促使的有限状态传感器的输出是一个有限的状态统计资源,熵(每单位时间)少于或者等于输入。如果这个传感器是单个的,那么它们相等。

代表资源的状态,它产生一连串的标号;让代表状态统计资源,它产生、输出封闭的标号。这个链接的系统可以被“生产状态区间”的“()”所代表。这两点的区间()和()被一条线连接,如果可以得出x,从,这条线是给出的在这种情况下可能的x。这条线是一个标签的标号。这个输出的熵可以像重量和等状态那样被计算出来。如果这个和的结果少于或者等于,那么熵不会增加。如果这个传感器不是单个的,它输出与反向的传感器相一致。如果是输出的这个资源的熵,那么,所以

假如我们有一个约束可能序列的系统,其类型由像图2的线状图描述。如果概率被分配到多样的连接状态到状态的线条,这将变为一个信源。存在一个使熵结果取得最大值的特殊分配(见附录4)。

定理8:将约束系统考虑为一个容量为的信道。如果我们指派

其中是符号从状态到状态的周期,并且满足

然后取得最大值并且等于

通过蜕变概率的适当指派,一个信道的符号熵可以在信道容量上取得最大值。

9.无躁声信道的基本原理

我们现在证明对的解释正如通过证明确定信道容量需要用最有效的译码产生信息的比率。

定理9:取一个熵值为(比特每符号)的信源和一个容量为C(比特每秒)的信道。而后就有可能编码信源的输出,在信道上以这样一种符号每秒的平均传输速率传输,其中是一个任意小的域。不可能以大于的速率传输。

定理的相反部分,不可能被超越,可以记录每秒输入的信道熵等于信源来证明,因为传达者必须是非单一的,并且熵不能超越信道容量。因此,并且每秒的符号数目等于

定理的第一部分将以两种不同的方法证明。第一种方法是考虑一系列由信源产生的N个字符的所有序列。对一个大数N,我们可以分成两组,一组包括少于个成员,另一组包括少于个成员(其中R是不同符号数目的对数),并且有一个小于的总概率。随着N的增加趋向于0。信道中信号数目的周期T大于T大的时候小。如果我们选择

然后当充分大(尽管很小)且有一些增量时对于高概率的组将有足够的信道符号的序列数目。高概率组任意的一对一的方式编码到集合。保留序列被大的序列描述,以不被用在高概率组的一个序列开始和结束。这个特殊序列为一个不同的编码担当起始和结束的信号。在中间一个充分的时间被允许对所有低概率信息给出足够不同的序列。

这需要

其中很小。符号信息每秒的平均传输速度将会大于

N增加时,趋向于0且速度趋向于

还有另一个履行译码的方法,因此定理的证明可以描述如下:

以概率递减的顺序安排长度为N的信息,且假设它们的概率是

,也就是是累积概率的结果,但不包括。我们首先编码成一个二进制数,信息的二进制码是通过展开为二进制数获得的。扩展式被执行到位,其中是整数且满足:

这样高概率的信息由短代码描述,而低概率的信息由长代码描述。从这些不等式我们有

在一个或更多的位,的编码将不同于所有继后编码,因为所有剩余至少这么大,并且它们的二进制扩展因此在第一个处不同。从而所有的编码是不同的,并且有可能从它的编码重新获得信息。如果信道序列还不是二进制数字序列,它们可以以任意的方式被归因于二进制数,并且这样二进制码就转化为适合信道的信号。

二进制数字所用原始信息的每个符号的平均数目是容易估计的。我们有

但是,

因此

随着的增加趋向于,信源熵趋向于

我们由此看出译码的无效率,仅仅当N个符号的有限延迟被用到。不需要多于加上真实熵和由长度为N的序列计算出的熵之间的区别。因此超过理想值所需的过度时间百分比少于

这种编码方法与R.M.Fano独立建立的方法是充分相同的。他的方法是以渐减的概率排列长度为N的信息。将这个序列尽量等概率地分成两组。若信息在第一组,它的第一个二进制数字将是0,否则为1。该组被类似地分为近似等概率的子集,并且详细子集确定第二个

二进制数字。继续此过程直到每个子集只包括一个信息。很容易看出除了一些较小的差别(一般是最后一个数字)这等于像以上描述数学过程的同样事件。

10. 讨论和例子

为了从一个发生器到负荷获得最大的传输能力,一个变压器必须被综合地引入从而从负荷看到的发电机有负荷阻力。这里的情形大致上相似。编码传感器应该匹配信源到统计感觉器中的信道。从信道中看到的信源通过传感器应该有同样统计结构作为使信道中熵取得最大值的信源。

技术报道No. 65,电子学研究工作实验室,麻省理工学院,1949年3月17日

定理9的内容是,尽管一个精确的匹配一般不可能,但我们能够如愿地逐渐接近。实际传输到容量的传输速率的比率可能被叫做译码系统的效率。这显然等于信道符号到最大可能熵的实际熵的比率。

一般地,理想或近乎理想的编码需要在转送者和接受者中一个长的延迟。在我们已经考虑的无躁声情形,这个延迟的主要功能是允许对到相应序列长度的概率适度、优良地匹配。

伴随一个优良编码一个长信息的相应概率的对数必须与相应符号的周期成比例,事实上

除了长信息的一小部分外必须很小。

如果一个信源仅仅产生一个特殊信息,它的熵就为0,并且不需要信道。例如,计算机提出了计算连续数字,产生一个没有偶然元素的确定序列。“传输”一点到另一点不需要信道。我们可以构造第二个机器来计算此点的同样序列。然而,这是不切实际的。在这种情况下,我们选择忽略一些或所有我们知道的关于信源的统计学知识。我们可以考虑数字是一个随机时序,在此我们构造一个系统的发送一些序列数字的能力。在一个类似的方法中我们可以选择用并非所有的一些构造编码的英语统计知识。在此情形我们考虑有最大熵的信

源使其服从我们想要保留的统计条件。信源熵决定必需和充分的信道容量。在的例子中仅仅保持的信息是所有的数字选自集合。在英语情形中我们希望用统计学减少归于字母频率的可能性,而没有其它的。于是最大的信源熵就是英文的第一个近似值,并且它的熵决定必需的信道容量。

作为部分结果的一个简单例子,考虑一个信源,它生成一个从中选择以为概率的字母序列,连续符号被独立地选择。我们有

这样我们可以模拟一个译码系统,从信源到二进制数字编码以平均个二进制数字每字符编码信息。在此情况下我们实际上通过以下编码(由定理9的第二个证明方法获得)达到极限价值:

用于编码个符号的序列的二进制数的平均数将等于

很容易看出二进制数字01的发生概率为,因此编码序列的是一比特每字符。因此,一般地,我们有二进制位每原始字母,以时间为基础的熵是相同的。原始集合的最大可能熵是,发生于当的概率分别为时。因此相对熵是

我们能通过下表以二对一的基础翻译二进制序列为原始的符号序列:

这种双倍过程就编码原始信息为同样的符号,但是有一个平均压缩比率

作为第二个例子,考虑一个分别以为概率出现的序列的信源。如果

我们就有

=

在此情形我们可以通过发送一个特殊序列为在01信道中的信息构造一个公正优良的编码,比如说000,适合于很少发生的的符号和指示跟随它的的数目的序列。这可以通过二进制表示法指示,尽管数目中包括被删除的特殊序列。所有的数字直到16被平常的描绘;1616后的二进制数描绘,它不包括40,定义17=10001,等等。

可以看出当时译码逼近理想值,倘若给出的特殊序列长度被适当地调整。

你可能感兴趣的:(通信的数学理论)