卷积神经网络激励层详解

激励层(ReLU layer)是把卷积层输出结果做非线性映射,因为卷积层的计算是一种线性计算,对非线性情况无法很好拟合。有时也会把卷积层和激励层合并在一起称为“卷积层”。

CNN采用非线性函数作为其激励函数。以最常见的ReLU(The Rectified Linear Unit修正线性单元)为例,如图所示,它是一个分段线性函数,但其拥有非线性表达的能力,即不同的样本通过ReLU后,有些得到的值是0,有些是x=WU+B(U为激励层的输入),因此虽然ReLU为分段线性函数,但输出空间仍是输入空间的非线性变换得来的。它的特点是收敛速度快,计算量较小,但较脆弱。除此之外还有sigmoid 、tanh函数等。

卷积神经网络激励层详解_第1张图片

relu这种“看似线性”(分段线性)的激活函数所形成的网络,居然能够增加非线性的表达能力。
1、首先什么是线性的网络,如果把线性网络看成一个大的矩阵M。那么输入样本A和B,则会经过同样的线性变换MA,MB(这里A和B经历的线性变换矩阵M是一样的)。
2、的确对于单一的样本A,经过由relu激活函数所构成神经网络,其过程确实可以等价是经过了一个线性变换M1,但是对于样本B,在经过同样的网络时,由于每个神经元是否激活(0或者Wx+b)与样本A经过时情形不同了(不同样本),因此B所经历的线性变换M2并不等于M1。因此,relu构成的神经网络虽然对每个样本都是线性变换,但是不同样本之间经历的线性变换M并不一样,所以整个样本空间在经过relu构成的网络时其实是经历了非线性变换的。
3、还有一种解释就是,不同样本的同一个feature,在通过relu构成的神经网络时,流经的路径不一样(relu激活值为0,则堵塞;激活值为本身,则通过),因此最终的输出空间其实是输入空间的非线性变换得来的。
4、更极端的,不管是tanh还是sigmoid,你都可以把它们近似看成是分段线性的函数(很多段),但依然能够有非线性表达能力;relu虽然只有两段,但同样也是非线性激活函数,道理与之是一样的。
5、relu的优势在于运算简单,网络学习速度快

你可能感兴趣的:(卷积神经网络)