信息论概念

熵是信息论的基本概念,又称为自信息,描述一个信息的不确定性。定义式如下:

其中约定,当x = 0 时候,
熵越大,信息的不确定性越大,正确估计的可能性越小。越不确定的随机变量需要越多的信息去确定其值。最大熵原理是在1957 年由E.T.Jaynes 提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。这个理论广泛应用于自然语言处理中。

联合熵,条件熵

联合熵:条件熵:

根据推到可以得出:

互信息

根据连锁规则可以得出

因此

这个差叫做X,Y的互信息,记为,反应的是知道了Y之后X不确定性的减少量。可以理解为Y透露出了多少X的信息量。互信息体现了两个变量的依赖程度,值越大,依赖程度越高,相反,负值越大,Y对X的越不利。若互户型
公式如下:

各个概念之间的关系图:



互信息在词汇聚类,汉语言分词,词意消歧等方面有着重要的用途。

相对熵

也叫KL散度,KL距离。衡量相同事件空间里,两个不同概率分布的相对差距。

根据公式可以看出,求的是的期望。p=q时候,相对熵等于0。
互信息公式经过转化可以得到:

说明互信息可以衡量联合分布的独立性差距有多大。

交叉熵

衡量估计模型与与真实概率分布之间的差异。模型的交叉熵越小,模型的表现越好。一个随机变量X~p(x),进似模型为q(x),那么X与q的交叉熵为:

由此一段文本L,把汗n个:

p的真实概率可以由大数定理近似得到。

困惑度

在设计语言模型,通常用困惑度来代替交叉熵来衡量语言模型的好坏。

噪声信号模型

找到一个X,p(x)为X的概率模型。使得输出Y时,找到X',使得。在自然语言中不考虑输入编码,即:

在翻译应用中,假设要将中文z翻译成英文e,这里假设e是输入,我们要寻找e'
使得

参考文献

最大熵原理
https://baike.baidu.com/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E5%8E%9F%E7%90%86
参考书籍:统计自然语言

你可能感兴趣的:(信息论概念)