李沐-动手学深度学习(1)损失函数和激活函数

一、损失函数

损失函数,用来衡量预测值和真实值之间的区别。

1、均方损失(L2 Loss)

横坐标应该是y-y'。蓝色曲线是:真实值y不变时,变化预测值y'的曲线,是一个二次函数。绿色是它的似然函数,是一个高斯分布。橙色线是损失函数的梯度,是个过原点的直线。

箭头长度是下降的快不快。图中可以看出L2 Loss损失函数的特点,当离极值点较远的时候,其以较大的梯度绝对值下降;当靠近我们的极值点时它的梯度变得很小。当然也有它不足的地方,就是当离极值点很远的时候,它的梯度很大,离原点较远的时候,我们可能不需要那么大的梯度。

最小化损失,等价于最大化似然函数

2、绝对值损失函数(L1 Loss)

这个损失函数的特点是,当预测值跟真实值较远时,不管多远,梯度永远是常数,就断隔得很远,权重更新也不会特别大,会带来一些稳定性上的好处。缺点是零点处不可导;还有梯度在-1和1之间的剧烈变化,这个不平滑性,导致优化末期不太稳定。

3、Huber's Robust Loss

结合L1 Loss和L2 Loss的好处。


二、激活函数

激活函数的本质就是把线性变成非线性。

(1)sigmoid激活函数

(2)Tanh函数

(3)ReLU激活函数

最常用的。(其实效果差不多,但是算起来很快,不用进行指数运算)

你可能感兴趣的:(李沐-动手学深度学习(1)损失函数和激活函数)