神经网络

感知机到神经网络

感知机(理论上)可以处理很复杂的问题,但是感知机权重设置的工作依然是由人工进行的,这个特性限制了感知机处理问题的复杂度.
而神经网络一个重要性质就是他可以自动从数据中学习到合适的权重参数.
习惯上"多层感知机"指的就是神经网络.
一个2层神经网络的结构可以用下图表示:

神经网络的结构

"2层"表示拥有权重的层数为2
中间层由被称为隐藏层,神经网络的连接方式和感知机一致,可以将神经网络理解成由多层感知机堆叠而成.

激活函数

感知机判别函数
$y= \begin{cases} 0 &(w_1x_1+w_2x_2\le\theta) \\ 1 &(w_1x_1+w_2x_2\le\theta) \end{cases} = \begin{cases} 0 &(b+w_1x_1+w_2x_2)\le 0\\ 1 &(b+w_1x_1+w_2x_2)\gt0 \end{cases} \\其中 w_1,w_2称为权重,b=-\theta称为偏置$
可以写成如下形式

类似h这种将输入信号的总和转化为输出信号的函数被称为激活函数
我们可以用下图表示这一过程

image.png

神经网络中每一个节点都可以认为是一个激活函数的计算过程.
常见的激活函数包括:

阶跃函数

类似感知机的激活函数,以阈值为界,一旦输入超过阈值就切换输出

sigmoid函数(较传统的神经网络激活函数):

ReLU函数(最近流行的神经网络激活函数)

线性激活函数

神经网络必须使用非线性的激活函数,否则便失去了加深神经网络层数的意义
eg.对于一个n层网络,若使用作为激活函数,则
等价于单层神经网络

神经网络的内积

image.png

三层神经网络

三层神经网络.png

其中,为函数
实现代码如下:

import numpy as np
def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network
def sigmoid(x):
    return 1/(1+np.exp(-x))
def forward(network,x):
    W1,W2,W3 = network['W1'],network['W2'],network['W3']
    b1,b2,b3 = network['b1'],network['b2'],network['b3']
    
    a1 = x.dot(W1) + b1
    z1 = sigmoid(a1)
    
    a2 = z1.dot(W2) + b2
    z2 = sigmoid(a2)
    
    a3 = z2.dot(W3) + b3
    y = a3
    return y
network = init_network()
x = np.array([1.,.5])
y = forward(network,x)
# y = [0.31682708, 0.69627909]

恒等函数和softmax函数

恒等函数:将输入信号原样输出的函数,输出层的神经元只受单个输入神经元的影响

恒等函数

softmax函数:,输出层的神经元收到输入层的所有神经元影响
为了防止数值溢出,我们可以对上式变形
softmax函数总是输出0.到1.之间的实数,并且softmax输出总和总是1,我们可以吧softmax函数的输出解释成"概率"

softmax函数

小结

神经网络中的激活函数使用平滑变化的sigmoid函数或者ReLU函数
通过巧妙使用Numpy的多维数组,可以高效地实现神经网络
机器学习的问题大体上可以分为分类和回归问题
关于输出层的激活函数,回归问题中一般用恒等函数,分类问题一般用softmax函数
分类问题中,输出层的神经元的数量设置为要分类的类别数
输入数据的集合称为批(batch),通过以批为单位的推理处理(Numpy)能够提高运算效率