关于信息这一概念的思考

概念

这些内容需要一些概率论的常识,百度在这一词条的编辑非常好

信息论之父 C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。
Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。

维纳的定义:信息就是信息,信息是物质、能量、信息及其属性的标示。信息就是信息,信息既不是物质,也不是能量。

通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。

因此不确定性函数f概率P的减函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即 f ( P 1 ∗ P 2 ) = f ( P 1 ) + f ( P 2 ) f(P1*P2)=f(P1)+f(P2) f(P1P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数,即

f ( P ) = l o g 1 P = − l o g P f(P) = log\frac{1}{P} = -logP f(P)=logP1=logP

在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵,即

H ( U ) = E ( − l o g P i ) = − ∑ i P i l o g P i H(U) = E(-logP_{i})=-\sum_{i}P_{i}logP_{i} H(U)=E(logPi)=iPilogPi

式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。

例子

最简单的单符号信源仅取0和1两个元素,即二元信源,其概率为P和Q=1-P,该信源的熵即为如图1所示。
由图可见,离散信源的信息熵具有:
①非负性:即收到一个信源符号所获得的信息量应为正值,H(U)≥0
②对称性:即对称于P=0.5
③确定性:H(1,0)=0,即P=0或P=1已是确定状态,所得信息量为零
④极值性:因H(U)是P的上凸函数,且一阶导数在P=0.5时等于0,所以当P=0.5时,H(U)最大。
对连续信源,香农给出了形式上类似于离散信源的连续熵,

关于信息这一概念的思考_第1张图片

图1 二元信源的熵

虽然连续熵仍具有可加性,但不具有信息的非负性,已不同于离散信源。

不代表连续信源的信息量。连续信源取值无限,信息量是无限大,而是一个有限的相对值,又称相对熵。但是,在取两熵的差值为互信息时,它仍具有非负性。
这与力学中势能的定义相仿。

你可能感兴趣的:(关于信息这一概念的思考)