交叉熵损失函数

目录

  1. 二分类
  2. 多分类
  3. 为什么sigmoid激活函数,使用交叉熵损失函数更好?

1. 二分类

激活函数sigmoid

这里要注意的是是最后一层的输出,才是激活函数后的输出,为预测值。
二分类的交叉熵损失函数

这里的或

2. 多分类

一般情况下,最后一个输出层的节点个数与分类任务的目标数相等。因此多分类最后一层用softmax得到每个类别的预测值。
激活函数softmax:

因此

损失函数

这里的或。
举例说明,假设任务是3分类问题,原始样本标签为,预测值为,那么

3. 为什么sigmoid激活函数,使用交叉熵损失函数更好?

下面以二分类为例进行说明。

数学推导,求损失函数的解必会有求导,因此我们对损失函数求导:




所以当误差大的时候,权重更新快;当误差小的时候,权重更新慢。这是一个很好的性质。

对比均方误差损失函数。




相比交叉熵损失函数,没有“误差更大权重更新越快”的性质。

学习资料

  • 从最优化的角度看待Softmax损失函数
  • Softmax理解之二分类与多分类
  • 常见的损失函数(loss function)总结
  • 为什么sigmoid激活函数,使用交叉熵损失函数更好。

你可能感兴趣的:(交叉熵损失函数)