信息论中的熵,又叫信息熵。它是用来衡量,一个随机变量的不确定程度。
熵越大,他的不确定性越大。最大熵模型的假设就是基于此而来。
联合熵用得比较少。它表示,我要描述这一对随机变量,平均下来我所需要的信息量。
互信息反映的是在知道了Y以后,X的不确定性的减少量,可以理解为Y的值透露了多少关于X的信息量。
KL距离是用来衡量,两个分布之间的相似度。当两个随机分布完全相同,相对熵为0.
公式:
交叉熵:如果一个随机变量X 服从 p(x)分布,q(x)用于近似p(x)的概率分布,那么随机变量和模型q之间的交叉熵定义为:
其中熵和交叉熵是我们用得比较多的,交叉熵损失函数是机器学习中常用的一个损失函数,
例如一个多分类问题,一个样本正确的label是他被分到类别1-5的概率为[0,0,0,0.8,0.2],而模型的输出可能是[0.1,0.2,0.1,0.5,0.1],那么就可以通过上面的公式算出一个损失。换句话说[0,0,0,0.8,0.2]是p(x),[0.1,0.2,0.1,0.5,0.1]是q(x),我们的优化目标是使得
H(X,q) 尽可能的小。
交叉熵损失也可用于二分类。下面y表示label取值范围为{0,1}
数据集合D中关于属性a的信息增益:
而还有个叫基尼系数的东西。。它的公式很简单很好记。直观来说,它反映了从数据集D中随机抽取两个样本其类别标记不一致的概率。