信息论

基本概念

如果X是一个离散随机变量,取值空间为 R , 其概率分布为 p(x)=p(X=x),xR ,那么X的熵 H(x) 定义为

H(x)=p(x)log2p(x)

其中约定 0log0=0 ,对数以2为底的熵的单位为二进制位比特。

联合熵

如果 X,Y 是一对随机变量, X,Y ~ p(x,y) , X,Y 的联合熵H(X, Y)定义为:

H(X,Y)=xXyYp(x,y)logp(x,y)

在给定随机变量X的情况下, Y的条件熵H(Y|X)定义为:

H(Y|X)=xXp(x)H(Y|X=x)=xXp(x)[yYP(y|x)logp(y|x)]=xXyYp(x,y)logp(y|x)

互信息

根据熵的连锁规则,有

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

因此,

H(X)H(X|Y)=H(Y)H(Y|X)

这个差被称为互信息。记做 I(X,Y) , 它反应了在知道了Y之后,X的不确定性的减少量。展开之后,我们可以得到:

I(X,Y)=x,yp(x,y)logp(x,y)p(x)p(y)

你可能感兴趣的:(Machine,Learning,信息论-熵)