【机器学习】分别从极大似然和熵的角度来看交叉熵损失

参考:交叉熵和对数损失函数之间的关系

            SoftMax函数,交叉熵损失函数与熵,对数似然函数 

                                        从极大似然的角度

                                                  从熵的角度

假设样本为X,其对应的类别为Y,P(Y|X)就是给定X判断为Y的后验概率。我们希望每一个样本X被正确预测到相应类别Y的概率都最大,即max P(Y|X),那么所有样本正确预测概率相乘最大化就是我们所期望的,因此采用极大似然的原理。

Step1:构建似然函数

Step2:构建对数似然函数,以简便运算

Step3:构建损失函数

我们的目标是希望对数似然函数更大,即等价于使负的对数似然函数最小,即。因此损失函数为:

对于单个样本有对数(似然)损失函数由此而来

首先引入信息量,信息量即信息多少的度量。公式表达如下,是事件x发生的概率。

之后引入信息熵,信息熵就是信息量的期望,它代表了一个系统的不确定性,系统中事件x发生的概率越小,信息熵越大,不确定性越大。

【机器学习】分别从极大似然和熵的角度来看交叉熵损失_第1张图片

   

对于一个样本集,存在两个概率分布p(x)和q(x),其中p(x)为真实分布,q(x)为非真实分布(是我们预测的概率分布)。基于真实分布p(x)表示这个样本集的信息熵如下:

如果用非真实分布q(x)来表示样本集的信息量的话,有:

【机器学习】分别从极大似然和熵的角度来看交叉熵损失_第2张图片

这个就是交叉熵

一般情况下为多分类时,有:

其中P表示样本X被正确预测到相应类别Y的概率。则损失函数为:

这也就是多分类的交叉熵损失。这里y=1,因为对数损失只考虑样本X被正确预测到相应类别Y的概率尽可能大,无需考虑错分为其他类别的概率。

多分类情况下,q(x)是我们正确将模型预测为相应类别的概率,对应于左边的概率P。真实分布p(x)表示这个样本本身就为对应类别的概率,就为1。可以这么理解,假设这个样本的类别为2,那么它就是客观的真实的类别为2,不可能为其他类别,所以真实概率为1,对应于左边的y。则有:

对应于极大似然角度下的多分类交叉熵损失

特殊地,当是二分类时,如逻辑回归,P为模型预测为类别1的概率,那么预测为类别0的概率就为1-P,则有:

此时套用上面的对数损失函数有:

【机器学习】分别从极大似然和熵的角度来看交叉熵损失_第3张图片

 

即就是二分类的交叉熵损失

特殊地,当是二分类时,则有

【机器学习】分别从极大似然和熵的角度来看交叉熵损失_第4张图片

  • 这里表示类别为1的样本x被正确判断的真实概率,对应于左边的y,为1。相应地, 是类别为0的样本x被正确判断的真实概率,为
  • 示类别为1的样本x被预测为1类别概率,对应于左边的P。相应地, 是类别为0的样本x被正确判断为0类的概率,为

因此有:

对应于极大似然角度下的二分类交叉熵损失

你可能感兴趣的:(概率论,机器学习)