深度学习入门基于Python的理论与实现(第3章 神经网络)

image.png
  1. 图 3-1中的网络一共由 3层神经元构成,但实质上只有 2层神经元有权重,因此将其称为“2层网络”。
  2. “朴素感知机”是指单层网络,指的是激活函数使用了阶跃函数的模型。“多层感知机”是指神经网络,即使用sigmoid函数等平滑的激活函数的多层网络。
  3. sigmoid函数
def sigmoid(x):
    return 1/(1+np.exp(-x))
  • sigmoid具有平滑性,对神经网络的学习具有重要意义
  • sigmoid输出[0,1]之间连续的实数值信号
  1. 神经网络的激活函数必须使用非线性函数。激活函数使
    用线性函数,不管如何加深层数,总是等效于一个没有隐藏层的神经网络。
  2. ReLU
def relu(x):
    return np.maximum(0, x)
  1. 矩阵乘法


    image.png
>>> A=np.array([[1,2],[3,4]])
>>> B=np.array([[5,6],[7,8]])
>>> np.dot(A,B)
array([[19, 22],
       [43, 50]])
  1. 3层神经网络的实现
def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3]) 
    # 注意,因为W1的维度是[2x3], b的维度是[3], 因为wx+b,每个wx都要有一个b
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network
def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)
    return y
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y) # [ 0.31682708 0.69627909]
  1. 输出层的设计
    神经网络可以用在分类问题和回归问题上,不过需要根据情况改变输出层的激活函数。一般而言,回归问题用恒等函数,分类问题用softmax 函数。
  • softmax

    softmax输出总和是1,所以输出可以解释为概率。softmax不会改变输入各个元素之间的大小关系,因为exp(x)是单调递增函数。如果神经网络只把输出值最大的神经元所对应的类别作为识别结果,输出层的softmax 函数可以在推理(testing)省略。在实际的问题中,由于指数函数的运算需要一定的计算机运算量,因此输出层的softmax 函数一般会被省略。
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

上式的缺陷是溢出问题。softmax 函数的实现中要进行指数函数的运算,但是此时指数函数的值很容易变得非常大。
softmax函数的改进:


image.png

上式说明,再进行softmax计算时,对输入加上或减去某个常数不会改变计算结果。一般使用输入中的最大值。

def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 溢出对策
    sum_exp_a = 
    np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y
  1. 手写数字识别
    网络中权重的设置


    image.png

    image.png
  2. 术语翻译
    前向传播(forward propagation)
    正规化(normalization)
    预处理(pre-processing)

你可能感兴趣的:(深度学习入门基于Python的理论与实现(第3章 神经网络))