Relu

image.png

优点

ReLU是神经网络中最常用的激活函数,尤其是在CNN中。如果您不确定要在网络中使用哪种激活功能,通常最好选择ReLU。

对于所有正值,ReLU是线性的(identity),对于所有负值,ReLU是零的。这意味着:

  • 由于没有复杂的数学运算,因此计算开销小。因此,该模型可以花费更少的时间进行训练或预测。
  • 它收敛更快。线性意味着当x变大时,斜率不会平稳或“饱和” 。它没有其他激活函数具有的梯度消失问题(如Sigmoid或tanh)。
  • 它可以被稀疏地激活。由于所有负输入的ReLU均为零,因此任何给定的单元都可能根本无法激活。

模型稀疏性

注意:我们在这里讨论模型稀疏性。数据稀疏性(缺少信息)是不同的,通常是不好的。

为什么模型稀疏性好?如果我们考虑一下人工神经网络试图模仿的生物神经网络,这在直觉上是有意义的。尽管我们体内有数十亿个神经元,但并非所有时间都为我们所做的所有事情激发。相反,它们具有不同的作用,并由不同的信号激活。

稀疏性导致简洁的模型,这些模型通常具有更好的预测能力和更少的过拟合。在稀疏网络中,神经元更有可能实际上正在处理问题的有意义的方面。例如,在检测图像中猫的模型中,可能存在可以识别耳朵的神经元,如果图像是关于建筑物的,则显然不应激活该神经元。

最后,稀疏网络比密集网络更快,因为要计算的东西更少。

Dying ReLU

image.png

你可能感兴趣的:(Relu)