nndl 读书笔记 附录 E 信息论

github开源:https://nndl.github.io/
nndl作者:邱锡鹏
笔记作者:Isaac.(原创)

本书其他章节的笔记目录

信息论(Information Theory)是数学、物理、统计、计算机科学等多个学科的交叉领域。

这里,“信息”是指一组消息的集合。假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息。

目录结构

E.1 熵
E.1.1 自信息和熵
E.1.2 联合熵和条件熵
E.2 互信息
E.3 交叉熵和散度
E.3.1 交叉熵
E.3.2 KL散度
E.3.3 JS散度
E.3.4 Wasserstein距离

E.1 熵

E.1.1 自信息和熵

在信息论中,熵(Entropy) 用来衡量一个随机事件的不确定性

假设对一个随机变量 X(取值集合为 X,概率分布为 p(x), x ∈ X)进行编码,

自信息(Self Information)I(x) 是变量 X = x 时的信息量编码长度,定义为

随机变量 X 的平均编码长度,即熵定义

nndl 读书笔记 附录 E 信息论_第1张图片

是一个随机变量的平均编码长度,即自信息数学期望

熵越高,则随机变量的信息越多熵越低,则信息越少

如果变量 X 当且仅当在 x时 p(x) = 1,则熵为 0。也就是说,对于一个确定的信息,其熵为 0,信息量也为 0。如果其概率分布为一个均匀分布,则熵最大

nndl 读书笔记 附录 E 信息论_第2张图片

E.1.2 联合熵和条件熵

对于两个离散随机变量 X 和 Y ,假设 X 取值集合为 X; Y 取值集合为 Y,其联合概率分布满足为 p(x, y),则

X 和 Y 的联合熵(Joint Entropy)

X 和 Y 的条件熵(Conditional Entropy)

nndl 读书笔记 附录 E 信息论_第3张图片

根据其定义,条件熵也可以写为

通俗理解信息熵

为什么有一个负号?信息熵公式里的负号是为了确保信息一定是正数或者是0。

为什么底数为2?这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底。

通俗理解条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。

E.2 互信息

互信息(Mutual Information)是衡量已知一个变量时,另一个变量不确定性的减少程度。两个离散随机变量 X 和 Y 的互信息定义为

互信息的一个性质为

如果 X 和 Y 互相独立,即 X 不对 Y 提供任何信息,反之亦然,因此它们的互信息为零

E.3 交叉熵和散度

E.3.1 交叉熵

对应分布为 p(x)的随机变量,熵 H(p)表示其最优编码长度

交叉熵(Cross Entropy)是按照概率分布 q 的最优编码对真实分布为 p的信息进行编码的长度,定义为

在给定 p的情况下,如果 q 和 p越接近,交叉熵越小;如果 q 和 p越远,交叉熵就越大。

采用错误的分布q来表示来自真实分布p的平均编码长度。

交叉熵是衡量两个概率分布p,q之间的相似性。

交叉熵——我们如何评估差异

深度学习 | 透彻理解交叉熵的本质

E.3.2 KL散度

KL 散度(Kullback-Leibler Divergence),也叫KL 距离或相对熵(Relative Entropy),是用概率分布 q 来近似 p时所造成的信息损失量。

E.3.3 JS散度

JS散度(Jensen–Shannon Divergence)是一种对称的衡量两个分布相似度的度量方式,定义为

其中 m = ​(p + q)。

E.3.4 Wasserstein距离

Wasserstein距离(Wasserstein Distance)也用于衡量两个分布之间的距离。对于两个分布 q1, q2,pth-Wasserstein距离定义为

本书其他章节的笔记目录

你可能感兴趣的:(nndl 读书笔记 附录 E 信息论)