熵、信息增益、相对熵、互信息、交叉熵

基于熵概念的一系列指标是机器学习方法中经常使用的。这里统一做一个全面的整理。(以离散随机变量形式给出)

随机变量,熵为

是其平均不确定性的度量。

联合熵

随机变量的联合分布为,两者的联合熵为

条件熵

条件下的的熵为

条件熵是关于的平均值

一对随机变量的熵,等于其中一个变量的熵,加上另一个的条件熵

进而可推断得到熵的链式法则

信息增益

对样本总体(样本量)有多个类,则样本集的信息总和为(类似总体随机变量的熵)


对样本集进行分组,各组的信息量为


各分组的信息总和则为

而称信息增益,即分组后对信息的贡献程度。

相对熵

又称KL散度,反映两个概率分布之间的差异。
同一个随机变量 x 有两个单独的概率分布和,例如是总体的真是分布,是来自数据的理论分布,用来近似。所以机器学习分类问题评估label与predicts差距时,常使用KL散度(进一步实际使用交叉熵,见下文)。

当两个随机分布相同时,相对熵为0;两者差异越大,相对熵越大。
但相对熵不满足对称性,,且不满足三角不等式,因此其不是一个距离测度。

互信息

一个随机变量包含的关于另一个随机变量的信息量的度量。

有如下性质


  • X含有的Y的信息等于Y中含有的X的信息

  • 有时熵称为自信息

  • 等号成立的条件是X,Y相互独立

  • 互信息的链式法则
交叉熵

也度量两个概率分布的差异性

是相对熵的一部分

在机器学习分类问题评估label与predicts之间差距时,常直接用交叉熵作为损失函数,而不是KL散度,因为是不变的。

你可能感兴趣的:(熵、信息增益、相对熵、互信息、交叉熵)