深度学习入门(2)神经网络

上一篇文章《深度学习入门(1)感知机》主要介绍了神经网络的起源--感知机的基础知识及实现方式。本文主要介绍如何自己动手实现神经网络。

上一篇中,对于感知机权重参数wi的设定,是由人工来进行确定的,即确定合适的、能够符合预期的输入与输出的权重。但是实际的神经网络可以在训练过程中自动的从数据中学习到合适的权重参数。

从感知机到神经网络

下面我们主要介绍一下神经网络的组成,如下图,是一个典型的神经网络结构,0层:输入层;1层:中间层(隐藏层);2层:输出层。该网络由3层神经元构成,但只有2层神经元有权重(即输入层与中间层),因此称其为“2层网络”。(有的也称3层,自己理解即可)

我们再来回顾一下,上一篇文章中的感知机如下左图,感知机接收两个输入信号x1,x2,然后输出y。输入层加上偏置b的话则形式如下面右图。

上述加上偏置b的数学表达式如下:

其中,b被称之为偏置,用于控制神经元被激活的难易程度,加入b值越大,则输入信号的越难大于0,即越不容易被激活(即将y值变为1);w1,w2表示各个信号的权重参数。

我们引入函数h(x)将上述公式简化如下:(即将(b + w1x1 + w2x2)看做一个整体)

输入信号会被函数h(x)转换,转换后的值就是输出y。这里的函数h(x)即为神经网络中的激活函数,下面对激活函数进行介绍。

激活函数

上述h(x)函数会将输入信号的总和转换为输出信息,这种函数称之为激活函数

激活函数的作用在于决定如何来激活输入信号的总和。

信号加权和为节点a,节点a被激活函数h()转换成节点y

a与y称为节点(神经元)。h()为激活函数。

激活函数是连接感知机和神经网络的桥梁。

一般而言,“朴素感知机”是指单层网络,指的是激活函数使用了阶跃函数 A 的模型。

“多层感知机”是指神经网络,即使用sigmoid 函数(后述)等平滑的激活函数的多层网络。

在神经网络中,激活函数主要有以下几种:

1.阶跃函数

阶跃函数是指一旦输入超过阈值,就切换输出的函数。上述感知机中使用的就是该种激活函数,一旦a大于0则,输出变为1.

上述感知机的阶跃函数图形如下,从图中可以看出该阶跃函数以0为界,输出从0切换为1(或从1切换为0),值呈阶梯式变化,因此称为阶跃函数。

实现代码:

2.sigmoid函数

Sigmoid函数的数学表达式如下:

e为自然常数(纳皮尔常数)2.7182……

函数图像如下所示:

实现代码:

sigmoid函数与阶跃函数对比

Sigmoid函数(右图)阶跃函数(左图)

范围(0,1)0或1

平滑性平滑突变

共同特征输入小时,输出接近0(为0);

随着输入增大,输出向1靠近(变成1);

两者均为非线性函数,(线性函数为一条笔直线)

注意:神经网络的激活函数必须使用非线性函数。这是为什么呢?原因如下:

线性函数的问题在于,不管如何加深层数,总是存在与之等效的“无隐藏层的神经网络”。举例:我们考虑把线性函数 h(x) = cx 作为激活函数,把y(x) = h(h(h(x)))的运算对应3层神经网络 A。这个运算会进行y(x) = c × c × c × x的乘法运算,但是同样的处理可以由y(x) = ax(注意,a = c3)这一次乘法运算(即没有隐藏层的神经网络)来表示。如本例所示,使用线性函数时,无法发挥多层网络带来的优势。因此,为了发挥叠加层所带来的优势,激活函数必须使用非线性函数。

3.ReLU函数

ReLU( Rectifed Linear Unit)函数:ReLU函数在输入大于0时,直接输出该值;在输入小于等于0时,输出0。数学表达式如下:

图形如下所示:

实现代码:

神经网络的实现

神经网络的内积计算方式

我们使用numpy矩阵来完成神经网络的神经元及权重之间的计算。

代码如下:

3层神经网络的实现

权重的符号:

各层间信号的传递:

从第0层到第1层:

B的个数是由该层输出神经元的个数决定的。

各元素的形状:

X 2

W2X3

B3

A 3

从第1层到第2层:

从第2层到第3层:

输出层的激活函数用σ()表示,不同于隐藏层的激活函数h()( σ读作sigma)。

用σ()表示输出层的激活函数。h()表示隐藏层的激活函数。

3层神经网络的具体代码实现:

代码具体说明如下:

init_network()函数是对神经网络的权重与偏置进行初始化,并保存在一个字典中,保存了每一层的权重与偏置值(初始化的值是人为设定的,关于如何初始化比较好,这个也有一定的方法,后续文章会进行介绍);

forward()函数进行了神经网络的计算过程;

identity_function()函数(也称为“恒等函数”),并将其作为输出层的激活函数。恒等函数会将输入按原样输出,因此,这个例子中没有必要特意定义 identity_function()。这里这样实现只是为了和之前的流程保持统一。

至此,我们已经完成了一个3层神经网络的实现过程。

总结

本文主要介绍了以下几个内容:

神经网络的组成,层的概念,权重以及偏置;

激活函数的定义以及几种激活函数的介绍及实现;

3层神经网络的实现方式。

相信通过本文你会对神经网络的实现过程有一个基础的认识和了解,后续文章会对神经网络其他相关内容进行详细介绍,欢迎继续关注。

如果想关注更多深度学习相关内容,请进入链接《深度学习专栏》进行了解,谢谢!

你可能感兴趣的:(深度学习入门(2)神经网络)