数据处理中使用的各种熵

信息论起源于解决通信问题,标志性论著是香农的《通信的数学原理》。随着信息技术的发展,信息论思想不断用于机器学习和数据处理领域,解决数据分析问题。
熵是信息论中最重要和基础的概念,是概率分布的泛函,表示随机变量不确定性的大小,即假设某随机变量的概率密度为 p(x) ,则信息熵表示为 H(p) 。信息技术中经常使用的熵有下列几种:
1.自信息
自信息表示随机变量 X 某个取值 xi 的不确定性大小,与概率 p(xi) 有紧密的联系: p(xi) 越大, xi 的不确定性越小,反之, xi 的不确定性越小。故 xi 的自信息 I(xi) 定义为:
I(xi)=log1p(xi)=logp(xi) 。自信息只能衡量单个取值的不确定性大小。
2.信息熵
信息熵 H(p) 定义为随机变量的平均自信息,即平均不确定性,反应整个分布的不确定性大小。
H(X)=p(x)logp(x)dx
3. 条件熵
因为 H(Y|xi)=p(y|xi)logp(y|xi)dy ,所以条件熵 H(Y|X) 定义为:
H(Y|X)=p(x)p(y|x)logp(y|x)dydx=p(x,y)logp(y|x)dydx
4. 互信息
随机变量 X 取值 ai Y 的取值 bj 的互信息 I(ai,bj) 表示 X=bj 条件加入前后不确定性的减少,即加入条件 X=bj 后获得的信息量。定义为:
I(ai;bj)=log1p(ai)log1p(ai|bj)=logp(ai|bj)p(ai)
5.平均互信息
平均互信息 I(X;Y) 反应两个随机变量 X Y 的整体互信息,定义为:
I(X;Y)=X,Yp(xy)I(x;y))=X,Yp(xy)logp(x|y)p(x)=X,YP(xy)log1p(x)X,Yp(xy)log1p(x|y)=Xp(x)log1p(x)Yp(y|x)X,Yp(xy)log1p(x|y)=Xp(x)log1p(x)X,Yp(xy)log1p(x|y)=H(X)H(X|Y)
6.交叉熵
H(p;q)=- p(x)logq(x)dx
7.相对熵
相对熵 D(p||q) 又称Kullback-Leibler divergence,即 KL 离差,表示两个随机变量分布相差多少
Dp||q =- p(x)logq(x)dx(p(x)logp(x)dx) =H(p)+H(p;q)=- p(x)logq(x)p(x)dx
相对熵比交叉熵大 H(p)

你可能感兴趣的:(机器学习)