深度学习入门基于Python的理论与实现（第3章神经网络）

image.png

图 3-1中的网络一共由 3层神经元构成，但实质上只有 2层神经元有权重，因此将其称为“2层网络”。
“朴素感知机”是指单层网络，指的是激活函数使用了阶跃函数的模型。“多层感知机”是指神经网络，即使用sigmoid函数等平滑的激活函数的多层网络。
sigmoid函数

def sigmoid(x):
    return 1/(1+np.exp(-x))

sigmoid具有平滑性，对神经网络的学习具有重要意义
sigmoid输出[0,1]之间连续的实数值信号

神经网络的激活函数必须使用非线性函数。激活函数使
用线性函数，不管如何加深层数，总是等效于一个没有隐藏层的神经网络。
ReLU

def relu(x):
    return np.maximum(0, x)

矩阵乘法

image.png

>>> A=np.array([[1,2],[3,4]])
>>> B=np.array([[5,6],[7,8]])
>>> np.dot(A,B)
array([[19, 22],
       [43, 50]])

3层神经网络的实现

def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3]) 
    # 注意，因为W1的维度是[2x3], b的维度是[3], 因为wx+b，每个wx都要有一个b
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network
def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)
    return y
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y) # [ 0.31682708 0.69627909]

输出层的设计
神经网络可以用在分类问题和回归问题上，不过需要根据情况改变输出层的激活函数。一般而言，回归问题用恒等函数，分类问题用softmax 函数。

softmax

softmax输出总和是1，所以输出可以解释为概率。softmax不会改变输入各个元素之间的大小关系，因为exp(x)是单调递增函数。如果神经网络只把输出值最大的神经元所对应的类别作为识别结果，输出层的softmax 函数可以在推理（testing）省略。在实际的问题中，由于指数函数的运算需要一定的计算机运算量，因此输出层的softmax 函数一般会被省略。

def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

上式的缺陷是溢出问题。softmax 函数的实现中要进行指数函数的运算，但是此时指数函数的值很容易变得非常大。
softmax函数的改进：

image.png

上式说明，再进行softmax计算时，对输入加上或减去某个常数不会改变计算结果。一般使用输入中的最大值。

def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 溢出对策
    sum_exp_a = 
    np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

手写数字识别
网络中权重的设置

image.png

image.png
术语翻译
前向传播（forward propagation）
正规化（normalization）
预处理（pre-processing）

深度学习入门基于Python的理论与实现（第3章 神经网络）

你可能感兴趣的:(深度学习入门基于Python的理论与实现（第3章 神经网络）)

深度学习入门基于Python的理论与实现（第3章神经网络）

你可能感兴趣的:(深度学习入门基于Python的理论与实现（第3章神经网络）)