KL散度(KL divergence)

KL散度(KL divergence)

相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。

KL散度是两个概率分布P和Q差别的非对称性的度量,用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

【定义】

对于离散随机变量,其概率分布P和Q的KL散度可按下式定义为:

                                                                                D_{KL}(P||Q)=-\sum_{i}P(i)ln\frac{Q(i)}{P(i)}

等价于

                                                                                  D_{KL}(P||Q)=\sum_{i}P(i)ln\frac{P(i)}{Q(i)}

即按概率P求得的P和Q的对数商的期望值。KL散度仅当概率P和Q各自总和均为1,且对于任何i皆满足P(i)>0Q(i)>0时,才有定义。

对于连续随机变量,其概率分布P和Q可按积分方式定义为:

                                                                                 D_{KL}(P||Q)=\int_{-\infty }^{\infty }p(x)ln\frac{p(x)}{q(x)}dx 

其中pq分别表示分布PQ的密度。 

【特性】

◎ 相对熵的值为非负数:

                                                                                               D_{KL}(P||Q)\geq 0

由吉布斯不等式可知,当且仅当P=QD_{KL}(P||Q)为零。

◎ 尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距离。因为KL散度不具有对称性:从分布P到Q的距离通常并不等于从Q到P的距离。

                                                                                        D_{KL}(P||Q)\neq D_{KL}(Q||P)


【补充 --吉布斯不等式】

吉布斯不等式说明:

若  \sum_{i=1}^{n}p_{i}=\sum_{i=1}^{n}q_{i}=1  ,且p_{i},q_{i}\in (0,1],则有:-\sum_{i=1}^{n}p_{i}logp_{i}\leq -\sum_{i=1}^{n}p_{i}logq_{i},等号成立当且仅当p_{i}=q_{i}\;,\: \forall i

 

证明:

吉布斯不等式等价于:

0\geq \sum_{i=1}^{n}p_{i}logq_{i} -\sum_{i=1}^{n}p_{i}logp_{i}=\sum_{i=1}^{n}p_{i}log(q_{i}/p_{i} )=-D_{KL}(P||Q)

已知ln(x)\leq x-1,等号成立当且仅当x=1。则有

\sum_{i=1}^{n}p_{i}log(q_{i}/p_{i} )\leq \sum_{i=1}^{n}p_{i}log(q_{i}/p_{i}-1)=\sum_{i=1}^{n}(q_{i}-p_{i})=\sum_{i=1}^{n}q_{i}-\sum_{i=1}^{n}p_{i}=0

 

 

 

你可能感兴趣的:(机器学习,信息论概念)