本节主要是介绍神经网络中常见的激活函数-----sigmod函数。
sigmod的函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,常被用作神经网络的激活函数,将变量映射到0,1之间。-------------摘自《百度百科》
sigmod函数也叫作Logistic函数,用于隐层神经单元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或者相差不是特别大的时候效果比较好。
优点: 平滑、易于求导。
缺点: 激活函数计算量大,反向传播求误差的时候,求导涉及到除法,很容易出现梯度消失的情况,从而无法完成深层网络的训练。
f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+e−x1
对其求导可以得到:
f ( x ) = e − x ( 1 + e − x ) 2 = f ( x ) ( 1 − f ( x ) ) f(x)=\frac{e^{-x}}{(1+e^{-x})^{2}}=f(x)(1-f(x)) f(x)=(1+e−x)2e−x=f(x)(1−f(x))
其生成代码为:
def plot_sigmoid_dao():
x=np.arange(-8,8,0.1)
y=sigmoid(x)*(1-sigmoid(x))
plt.plot(x,y)
plt.show()
图像生成的python代码为:
import numpy as np
import matplotlib.pyplot as plt
def sigmoid(x):
return 1.0/(1+np.exp(-x))
def plot_sigmoid():
x=np.arange(-8,8,0.1)
y=sigmoid(x)
plt.plot(x,y)
plt.show()
if __name__ == '__main__':
plot_sigmoid()
激活函数是神经网络中极为重要的一个概念,它决定了某个神经元是否被激活,这个神经元接受到的信息是否有用,是该留下还是该抛弃掉。在神经网络中我们需要一个机制来区分有用信息和无用信息,类似于大脑中的神经元,有的神经对于某些信号是敏感的而有些神经元对这些信号是抑制的,在神经网络中能起到这个作用的就是激活函数。
激活函数的形式为: y = f ( ∑ i = 1 n w i x i − θ ) y=f(\displaystyle\sum_{i=1}^{n} w_ix_i-\theta) y=f(i=1∑nwixi−θ) 公 式 ( 1 ) 公式(1) 公式(1)
其中 f f f即为激活函数。 θ \theta θ为我们之前提到的神经元的激活阈值。
在神经网络中,上层神经元的输出和下层神经元的输入之间存在一个关系:例如:输入层神经元节点会将神经网络的初始输入值直接传递给下一层(隐藏层或者输出层)(直接传递或者线性变换);隐藏层神经元节点会将输出值作为下一层(隐藏层或者输出层)神经元节点的输入值,而且往往不是简单地一个直接传递或者简单的映射,而是具有一个函数关系(如公式(1)所示),这个函数就是激活函数(又称激励函数)。
实际上,激活函数可以看作是变量间的一个非线性变换,通过引入激活函数来增加神经网络模型的非线性,以便增加对样本非线性关系的拟合能力(在现实生活中,大部分的数据都是线性不可分的)。只有加入了激活函数之后,深度神经网络才具备了分层的非线性映射学习能力。
如果不用激励函数,在这种情况下,你每一层节点的输入都是上层输出的线性函数,很容易验证,无论神经网络有多少层,输出都是输入的线性组合,与没有隐藏层的效果相当,这种情况下就是最原始的多层感知机了(MLP),那么网络的逼近能力就相当有限。而现实生活中大部分的数据都不是线性可分的,正是因为这样,才引入了非线性的函数作为激活函数,这样深层神经网络表达能力就更加强大了。(不再是输入的线性组合,而是几乎可以逼近的任意函数。)
神经网络的梯度通过反向传播来得到,简单的说,反向传播通过从最终层到初始层,误差逐层传播来得到梯度,通过链式求导法则,每一层的导数会乘到一起来计算初始层的导数。
为了解决sigmod这种问题,后面出现了Thah、Relu等激活函数。具体的见后面的章节。
1、几种激活函数
这里面包含了几种常见的激活函数公式及其图像代码。
【本章完】