信息量的大小可以衡量事件的不确定性或发生的惊讶程度,具体事件的信息量随其概率的递增而递减,且不能为负。
x = x i , H ( x ) = − l o g p ( x ) x=x_i,H(x)=-logp(x) x=xi,H(x)=−logp(x)
对于一个随机变量X,它的所有可能取值的信息量的期望称为信息熵。熵是服从某一特定概率分布事件的理论最小平均编码长度。通常P描述样本的真实分布,Q描述预测分布。
离 散 变 量 : H ( x ) = − ∑ x ∈ X p ( x ) l o g p ( x ) … … … … ( 1 ) 离散变量:H(x)=-∑_{x∈X} p(x) logp(x) …………(1) 离散变量:H(x)=−x∈X∑p(x)logp(x)…………(1)
连 续 变 量 : H ( x ) = − ∫ x ∈ X p ( x ) l o g p ( x ) d x 连续变量:H(x)=-∫_{x∈X}p(x) log p(x)dx 连续变量:H(x)=−∫x∈Xp(x)logp(x)dx
于是,如果随机变量的取值越多,那么它的信息熵越大。如果取值越均匀,信息熵越大。
在随机变量Y条件下,X的条件概率分布的熵对Y的数学期望
H ( X ∣ Y ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y │ x ) l o g p ( y │ x ) H(X|Y)=-∑_{x∈X}p(x) ∑_{y∈Y}p(y│x) log p(y│x) H(X∣Y)=−x∈X∑p(x)y∈Y∑p(y│x)logp(y│x)
在随机变量X和Y条件下的数学期望
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g p ( x , y ) H(X,Y)=-∑_{x,y}p(x,y) log p(x,y) H(X,Y)=−x,y∑p(x,y)logp(x,y)
一个随机变量由于已知另一个随机变量而减少的不确定性。即两个随机变量引入一个后能给另一个带来多少信息。互信息=信息熵-条件熵
I ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X|Y)=H(Y)-H(Y|X) I(X∣Y)=H(Y)−H(Y∣X)
使用H(P, Q)表示,意味着使用P计算Q的编码长度。描述P和Q的相似程度。
除了P=Q,有H(P,Q)=H(Q,P)=H( P )
H ( p , q ) = − ∑ i = 1 n p ( x ) l o g q ( x ) … … … . . ( 2 ) H(p,q)=-∑_{i=1}^n p(x) log q(x)………..(2) H(p,q)=−i=1∑np(x)logq(x)………..(2)
描述两个概率分布的差异,是非对称的。
KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数
而往往有 真实值=预测值+信息增量,则这种信息增量D_kl可表示为:
D k l ( p ∣ ∣ q ) = ∑ i = 1 n p ( x ) l o g p ( x ) q ( x ) = H ( p , q ) − H ( p ) … … … … ( 3 ) D_{kl} (p||q)=∑_{i=1}^np(x) log\frac{p(x )}{q(x)} =H(p,q)-H(p)…………(3) Dkl(p∣∣q)=i=1∑np(x)logq(x)p(x)=H(p,q)−H(p)…………(3)
由公式(3)得出:相对熵=交叉熵-信息熵。
n为事件的所有可能性,KL散度越小,表示q与p分布越靠近。
性质:
Tips:在机器学习中评估真实数据与预测值的差距,使用 D k l D_{kl} Dkl刚刚好,但由于前一部分真实值P的信息熵不变,在优化过程中只需要关注交叉熵就可以了。所以在机器学习中直接使用交叉熵做损失loss。