【数学笔记】信息论基础

信息消除不确定性,不确定性由熵描述

随机变量的熵
X X X为随机变量,其分布为 P ( X ) P(X) P(X)
X X X的熵为:
H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ 2 P ( x ) H(X)=-\sum_{x\in X}P(x)\log_{2}{P(x)} H(X)=xXP(x)log2P(x)

随机变量的条件熵
已知随机变量 X , Y X,Y X,Y,联合分布 P ( X , Y ) P(X,Y) P(X,Y),条件分布 P ( X ∣ Y ) P(X|Y) P(XY)
则在 Y Y Y的条件下 X X X的条件熵为:
H ( X ∣ Y ) = − ∑ x ∈ X , y ∈ Y P ( x , y ) log ⁡ 2 P ( x ∣ y ) H(X|Y)=-\sum_{x\in X,y\in Y}P(x,y)\log_{2}{P(x|y)} H(XY)=xX,yYP(x,y)log2P(xy)

可证明 H ( X ) ≥ H ( X ∣ Y ) H(X)≥H(X|Y) H(X)H(XY)

互信息:
假定两个随机事件 X X X, Y Y Y,他们的互信息定义为:
I ( X ; Y ) = ∑ x ∈ X , y ∈ Y P ( x , y ) log ⁡ 2 P ( x , y ) P ( x ) P ( y ) I(X;Y)=\sum _{x\in X,y\in Y}P(x,y)\log_{2}\frac{P(x,y)}{P(x)P(y)} I(X;Y)=xX,yYP(x,y)log2P(x)P(y)P(x,y)
互信息描述了两个随机事件的相关性
实际上,互信息由
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)
导出。

库尔贝克——莱伯勒相对熵
衡量两个取值为正数的函数的相似性
K L ( f ( x ) ∣ ∣ g ( x ) ) = ∑ x ∈ X f ( x ) log ⁡ 2 f ( x ) g ( x ) KL(f(x)||g(x))=\sum_{x\in X}f(x)\log_2\frac{f(x)}{g(x)} KL(f(x)g(x))=xXf(x)log2g(x)f(x)

  • 两个完全相同的函数,其相对熵为0
  • 相对熵越大,两个函数差异越大
  • 对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性

詹森——香农相对熵
注意到库尔贝克——莱伯勒相对熵是不对称的,进行对称平均对其修正,得到:
J S ( f ( x ) ∣ ∣ g ( x ) ) = 1 2 [ K L ( f ( x ) ∣ ∣ g ( x ) ) + K L ( g ( x ) ∣ ∣ f ( x ) ) ] JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))] JS(f(x)g(x))=21[KL(f(x)g(x))+KL(g(x)f(x))]

你可能感兴趣的:(数学,熵,信息论)