激活函数ReLU、Leaky ReLU、PReLU和RReLU

“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”。

sigmoid和tanh是“饱和激活函数”,而ReLU及其变体则是“非饱和激活函数”。使用“非饱和激活函数”的优势在于两点:
    1.首先,“非饱和激活函数”能解决所谓的“梯度消失”问题。
    2.其次,它能加快收敛速度。
    Sigmoid函数需要一个实值输入压缩至[0,1]的范围
    σ(x) = 1 / (1 + exp(−x))
    tanh函数需要讲一个实值输入压缩至 [-1, 1]的范围
    tanh(x) = 2σ(2x) − 1

ReLU

    ReLU函数代表的的是“修正线性单元”,它是带有卷积图像的输入x的最大函数(x,o)。ReLU函数将矩阵x内所有负值都设为零,其余的值不变。ReLU函数的计算是在卷积之后进行的,因此它与tanh函数和sigmoid函数一样,同属于“非线性激活函数”。这一内容是由Geoff Hinton首次提出的。

ReLU 的缺点:
训练的时候很”脆弱”,很容易就”die”了
例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。

ELU

ELUs是“指数线性单元”,它试图将激活函数的平均值接近零,从而加快学习的速度。同时,它还能通过正值的标识来避免梯度消失的问题。根据一些研究,ELUs分类精确度是高于ReLUs的。下面是关于ELU细节信息的详细介绍:

激活函数ReLU、Leaky ReLU、PReLU和RReLU_第1张图片

Leaky ReLU

ReLU是将所有的负值都设为零,相反,Leaky ReLU是给所有负值赋予一个非零斜率。Leaky ReLU激活函数是在声学模型(2013)中首次提出的。以数学的方式我们可以表示为:

    激活函数ReLU、Leaky ReLU、PReLU和RReLU_第2张图片 a_{i} 是(1,+∞)区间内的固定参数。

参数化修正线性单元(PReLU)

PReLU可以看作是Leaky ReLU的一个变体。在PReLU中,负值部分的斜率是根据数据来定的,而非预先定义的。作者称,在ImageNet分类(2015,Russakovsky等)上,PReLU是超越人类分类水平的关键所在。

  

总结: ReLU、Leaky ReLU、PReLU和RReLU的比较:

    激活函数ReLU、Leaky ReLU、PReLU和RReLU_第3张图片

  •  Leaky ReLU中的 a_{i} 是固定的;
  •  PReLU中的 a_{i} 是根据数据变化的;
  •  RReLU中的 a_{ji} 是一个在一个给定的范围内随机抽取的值,这个值在测试环节就会固定下来。

 转载:http://i.ifeng.com/lady/vnzq/news?m=1&aid=124686188&mid=2EjJF3&all=1&p=2

PReLU激活函数

PReLU激活函数,方法来自于何凯明paper 《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

PReLU(Parametric Rectified Linear Unit), 顾名思义:带参数的ReLU。二者的定义和区别如下图: 

PReLU vs. ReLU

如果 a_{i} =0,那么PReLU退化为ReLU;如果ai是一个很小的固定值(如 a_{i} =0.01),则PReLU退化为Leaky ReLU(LReLU)。 有实验证明,与ReLU相比,LReLU对最终的结果几乎没什么影响。

PReLU的几点说明

(1) PReLU只增加了极少量的参数,也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的,当不同channels使用相同的 a_{i} 时,参数就更少了。

(2) BP更新 a_{i} 时,采用的是带动量的更新方式,如下图:

带动量更新

上式的两个系数分别是动量和学习率。 
需要特别注意的是:更新 a_{i} 时不施加权重衰减(L2正则化),因为这会把ai很大程度上push到0。事实上,即使不加正则化,试验中 a_{i} 也很少有超过1的。

(3) 整个论文,a_{i} 被初始化为0.25。

转载于:https://www.cnblogs.com/ymjyqsx/p/6294021.html

 

关于激活函数的博客

1、https://blog.csdn.net/Leo_Xu06/article/details/53708647

(补充,对于sigmoid函数,权重w越大,曲线越倾斜)

2、https://blog.csdn.net/guorongronghe/article/details/70174476

3、https://blog.csdn.net/weixin_42057852/article/details/84644348

4、https://blog.csdn.net/u011684265/article/details/78039280

你可能感兴趣的:(深度学习,Relu,Leaky,ReLU,激活函数)