一文弄懂为什么深度学习需要激活函数

文章目录

  • 一.神经网络分类
  • 二. 总结

一.神经网络分类

一文弄懂为什么深度学习需要激活函数_第1张图片
上图所展示的两个数据集,第一个可以通过线性的神经网络进行分类,第二个则需要非线性的神经网络进行分类。

  1. 线性神经网络
    如果考虑具有两个输入的单个线性神经元。下图显示了该网络的示意图:
    一文弄懂为什么深度学习需要激活函数_第2张图片
  • P1和P2:输入值
  • W1.1和W1.2:权重值
  • 在输出节点中的传递函数采用线性函数 purelin,其α = purelin (n) = purelin(Wp + b) = Wp + b
  • 线性函数purelin相当于一次函数y=kx+b

等式 Wp + b = 0指定了这样的决策边界,如下所示:一文弄懂为什么深度学习需要激活函数_第3张图片
右上灰色区域中的输入向量导致输出大于0。左下白色区域中的输入向量导致输出小于0。因此,线性网络可用于将对象分为两类。但是,只有当对象是线性可分离的时,它才能以这种方式分类。如文章一开始的图片中左边的就可以用这样的线性神经网络进行分类。

  1. 非线性神经网络
    如果像文章一开始的图片中右边的情况就不能用线性神经网络进行分类,因此我们引入了激励函数。
    一文弄懂为什么深度学习需要激活函数_第4张图片
    经过激活函数后,增加神经网络模型的非线性,才可以将非线性的数据进行分类。

二. 总结

总而言之,激活函数为了增加神经网络模型的非线性。否则你想想,没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。所以你没有非线性结构的话,根本就算不上什么神经网络。

如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了。
正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。最早的想法是sigmoid函数或者tanh函数,输出有界,很容易充当下一层输入。

你可能感兴趣的:(机器学习)