Entrophy、Cross-Entrophy、 KL-Divergence

Entrophy

X是一个离散型随机变量,取值集合为 X \mathscr{X} X,X服从概率分布 P r ( X = x ) = p ( x ) , x ∈ X Pr(X=x)=p(x),x\in\mathscr{X} Pr(X=x)=p(x),xX,则当事件 x = x 0 x=x_0 x=x0时,它携带的信息量为:
I ( x 0 ) = − l o g ( p ( x 0 ) ) I(x_0)=-log(p(x_0)) I(x0)=log(p(x0))
即事件 x = x 0 x=x_0 x=x0发生的概率越大,它携带的信息量越少。
例:一地区A明天99%的可能下雨,1%的可能晴天。当天气预报预测明天晴天时,携带的信息比预测明天下雨更多。

信息熵 H ( p ) = − ∑ i p i l o g ( p i ) H(p)=-\sum_ip_ilog(p_i) H(p)=ipilog(pi)

熵其实是信息量的期望值,它是一个随机变量的确定性的度量。熵越大,变量的取值越不确定。

例:接上例,另一地区明天50%可能下雨,50%可能晴天。
H A ( x ) = − [ 0.99 ∗ l o g ( 0.99 ) + 0.01 ∗ l o g ( 0.01 ) ] H_A(x)=-[0.99*log(0.99)+0.01*log(0.01)] HA(x)=[0.99log(0.99)+0.01log(0.01)]
H B ( x ) = − [ 0.5 ∗ l o g ( 0.5 ) + 0.5 ∗ l o g ( 0.5 ) H_B(x)=-[0.5*log(0.5)+0.5*log(0.5) HB(x)=[0.5log(0.5)+0.5log(0.5)

H A ( x ) < H B ( x ) H_A(x)<H_B(x) HA(x)<HB(x)
B的不确定性大于A。

三个性质:
(1)单调性,发生概率越高的事件,其携带的信息量越低;
(2)非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
(3)累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。

KL-Divergence

相对熵、KL散度、KL距离:是两个随机分布间距离的度量,它度量当真实分布为p时,假设分布q的无效性。
D K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D_{KL}(p||q)=H(p,q)-H(p) DKL(pq)=H(p,q)H(p)
p : p: p:实际分布
q : q: q:预测的分布

Cross-Entrophy

C r o s s − E n t r o p h y = E n t r o p h y + K L   D i v e r g e n c e Cross-Entrophy=Entrophy+KL\ Divergence CrossEntrophy=Entrophy+KL Divergence

H ( p , q ) = − ∑ i p i l o g 2 ( q i ) H(p,q)=-\sum_ip_ilog_2(q_i) H(p,q)=ipilog2(qi)
p : p: p:实际分布
q : q: q:预测的分布

Entrophy、Cross-Entrophy、 KL-Divergence_第1张图片

你可能感兴趣的:(机器学习学习笔记)