[AI 基础] 什么是信息?什么是熵?

造物主创造空气,让空气充满世界,沁养我们的身体;造物主又创造信息,让信息充满世界,哺育我们灵魂。我们的身体,需要呼吸空气;我们的灵魂,需要呼吸信息。

    我们正处在信息时代,“信息”这两个字,无处不在,但可能很少有人去思考,信息究竟是什么?

信息与熵的概念

    信息是个宽泛的概念,较难定义,但通过查阅一些资料,可以得出这样的定义:信息是一种消除人们对事件不确定性的事物。

    从定义看出,信息是和不确定性共存的,有不确定性,才有信息;没有了不确定性,就不会有信息。

    比如,针对“解答一道选择题”这个事件,若不知道答案,那么语句“选项A不对”是信息;如果知道了答案,那么前面的语句不再信息,而是称作噪音,针对解答这道题目,也就不存在什么信息了。

    从信息的定义可以看出,不确定性是个关键的概念。这个词我们很熟悉,那么这里的不确定性和我们熟悉的有无区别呢?答案是有的,因为用一个专门的名词来描述这里的不确定性:熵。

    熵是事件不确定性的度量,如果事件无不确定性,则熵为0,不确定性越大,熵越大。那熵又是怎么计算的呢?信息有没有度量呢?

信息与熵的计算

    设一个X是一个离散型随机变量,其取值空间为χ,概率密度p(x)=Pr(X=x),x∈χ,熵H(X)的计算公式为:

图片

    其中的log可以取不同的底,这也导致熵有不同的计量单位。如果底取2,则单位是比特(bit);如果底取e,则单位是奈特(nat)。为了便于理解,本文log的底取2,这时熵的单位为比特。公式就变为:

图片

    只看公式,不好理解,还是举解答选择题的例子进行说明。选择题有四个选项,每个选项的概率p(x)为0.25,H=-4*0.25*log0.25=2比特。如果已经排除了A选项,那么不确定性变小,只剩三个选项,每个选项概率p(x)是1/3,H=-3*1/3*log(1/3)=1.58比特。可以看出不确定性降低,熵变小。

    一个计量单位,我们往往关心1单位的意义,那熵为1比特是什么概念呢?什么情况下熵为1?其实通过公式可以计算,熵为1比特的事件,有两种可能结果且每种发生概率都为0.5,抛硬币就是一个典型的事件。以后其他事件,都可以拿抛硬币这个最熟悉不过的场景去做参照。

    有了这个解释后,就可以明白为啥做选择题的熵为2了,因为需要抛两次硬币才能选出答案。

    上边熵的公式可变换为:

图片

,容易看出,其实就是

图片

的期望值。为啥是这项的期望值呢?这项有啥具体意义吗?

    其实这个项代表的就是信息。我们定义一条信息所含信息量的公式为:

图片

。这样,熵就变为了信息量的期望值。可以看出,概率小,则所含信息量越大。

    举个例子理解下概率与信息量的这个关系:1.中国队取得了乒乓球世界冠军。2.中国队获得了世界杯冠军。可以看出,第一句话差不多就是句废话(不听差不多也知道了),差不多就是已知信息,所以含的信息量较少;第二个让人震惊,因为和已知差距太大了,含的信息量大。

[AI 基础] 什么是信息?什么是熵?_第1张图片

    所以,新信息与已知情况的差距可以反映信息量的大小,新信息概率大,与已知的差距小,信息量小;新信息概率小,与已知差距大,信息量大。

    以上就是对信息和熵的一点解释,希望本文给您带来了较多“信息”,较大程度降低了您的“熵”。

参考资料

[1] ThomasM.Cove : 信息论基础

文章转载自: 【AI基础】什么是信息?什么是熵?

你可能感兴趣的:(机器学习,人工智能,基础,机器学习)