信息量、信息熵、KL散度(相对熵)、交叉熵、JS散度

参考:https://blog.csdn.net/leviopku/article/details/81388306,百度百科
https://zhuanlan.zhihu.com/p/98785902

信息量(香农信息量)

公式:-log2 p(x) = log2 1/p(x)
对于一个分布中的x值的概率求对数,这时信息量使用的单位是比特。用于刻画消除随机变量X的不确定性所需要的总体信息量的大小,也就是信息越不确定(概率越小),则信息量越大

信息熵

表达系统整体所需要的信息量,整个分布的期望信息量
信息量、信息熵、KL散度(相对熵)、交叉熵、JS散度_第1张图片
对于连续型的累加符号换成积分符号,对每一个变量的概率和信息量相乘再做累加得到信息熵

KL散度(相对熵)

相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence)、信息增益
两个概率分布间差异的非对称性度量,
信息量、信息熵、KL散度(相对熵)、交叉熵、JS散度_第2张图片
可以理解为,在一个X的字符集中,有两种分布,一种是真实分布P(x),另一种是理论/想分布Q(x),对每一个字符在这两种分布的字符集使用编码最少/最优,也就是每种分布情况下的信息熵
对于Q(x)分布的情况下,对应的信息熵是
在这里插入图片描述
对于P(x)分布的情况下,对应的信息熵是
在这里插入图片描述
相对熵如下
在这里插入图片描述
上式可以知道KL(P||Q)≠KL(Q||P),且KL(A,B) > KL(A,C)+KL(C,B)
Q(x)分布的信息熵(也就是后边提到的交叉熵)减去P(x)分布的信息熵就能得到最终的相对熵,可认为是两种分布的距离(都是以2作为底的进制位编码)。
如下面的例子:
例如,对于26个英文字符集,有实际的字符串“aaaabbbbcd”简记为字符串P,另一个全部字符串分布的理论/理想字符串“abcdefghij”,简记为Q
从公式可以得到实际中的字符串概率:P(a)=0.4,P(b)=0.4,P( c )=0.1,P(d)=0.1,但理论字符串的概率都是0.1
实际字符串信息熵为:2x0.4log22.5+2x0.1log210=0.8log22.5+0.2log210
理论字符串信息熵为:2x0.4log210+2x0.1log210=log210
相对熵就是:0.8log210-0.8log22.5=0.8*2=1.6

交叉熵

在这里插入图片描述
它主要刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。可以看出相对熵就是通过交叉熵减去信息熵得到。主要用于度量两个概率分布间的差异性信息

JS散度(Jensen-Shannon)

实际上是KL散度的变化,解决了KL散度的对称性问题
在这里插入图片描述
KL散度和JS散度度量的时候有一个问题:
参考:https://zhuanlan.zhihu.com/p/84617531
如果两个分配P,Q离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。因为公式中的P(x)有值的情况下,Q(x)→0,同理Q(x)有值的情况下,P(x)→0,两种散度得到的斜率为0,得到一个常数

Wasserstein距离又叫Earth-Mover距离(EM距离)

用于衡量两个分布之间的距离
在这里插入图片描述
Π(P1,P2)是 P1和 P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 γ,可以从中采样 (x,y)∼γ得到一个样本 x和y,并计算出这对样本的距离 ||x−y||,所以可以计算该联合分布 γ下,样本对距离的期望值 E(x,y)∼γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界 inf γ∼Π(P1,P2)E(x,y)∼γ[||x−y||]就是Wasserstein距离。
为了通过最小的消耗,将两个分布的集合改变成一样,Wasserstein距离就是最优规划。

你可能感兴趣的:(数学基础)