LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)

https://www.cnblogs.com/stAr-1/p/9020537.html


LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)_第1张图片
image.png
  1. 为什么不用平方损失函数?

如果使用平方损失函数,梯度更新的速度会和 sigmod 函数的梯度相关,sigmod 函数在定义域内的梯度都不大于0.25,导致训练速度会非常慢。

平方损失会导致损失函数是的非凸函数,不利于求解,因为非凸函数存在很多局部最优解,很难得到全局最优解。

  1. LR 损失函数为什么用极大似然函数?

因为我们想要让每一个样本的预测都要得到最大的概率,
即将所有的样本预测后的概率进行相乘都最大,也就是极大似然函数。

  1. 为什么用对数损失函数?

由梯度更新的公式可以看出,对数损失函数的训练求解参数的速度是比较快的,而且更新速度只和x,y有关,比较的稳定。

image.png

你可能感兴趣的:(LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵))