机器学习面试第2弹 交叉熵损失vs.平方损失+ 合页损失函数HingleLoss+ 梯度下降函数的比较GD,SGD,Momentum,Adam
1.为什么要用交叉熵损失代替平方损失为什么不用二次方代价函数权值和偏置的偏导数为求导过程偏导数受激活函数的导数影响,sigmoid函数导数在输出接近0和1时非常小,会导致一些实例在刚开始训练时学习得非常慢。为什么要用交叉熵求导结果这个梯度公式与激活函数对z的偏导数无关,只与激活函数作用于z后的输出与期望的输出y有关,从这个梯度公式可以看出输出和期待的输出相差越大,梯度就越大,因此学习速率就会加快。