- 图 3-1中的网络一共由 3层神经元构成,但实质上只有 2层神经元有权重,因此将其称为“2层网络”。
- “朴素感知机”是指单层网络,指的是激活函数使用了阶跃函数的模型。“多层感知机”是指神经网络,即使用sigmoid函数等平滑的激活函数的多层网络。
- sigmoid函数
def sigmoid(x):
return 1/(1+np.exp(-x))
- sigmoid具有平滑性,对神经网络的学习具有重要意义
- sigmoid输出[0,1]之间连续的实数值信号
- 神经网络的激活函数必须使用非线性函数。激活函数使
用线性函数,不管如何加深层数,总是等效于一个没有隐藏层的神经网络。 - ReLU
def relu(x):
return np.maximum(0, x)
-
矩阵乘法
>>> A=np.array([[1,2],[3,4]])
>>> B=np.array([[5,6],[7,8]])
>>> np.dot(A,B)
array([[19, 22],
[43, 50]])
- 3层神经网络的实现
def init_network():
network = {}
network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
network['b1'] = np.array([0.1, 0.2, 0.3])
# 注意,因为W1的维度是[2x3], b的维度是[3], 因为wx+b,每个wx都要有一个b
network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
network['b2'] = np.array([0.1, 0.2])
network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
network['b3'] = np.array([0.1, 0.2])
return network
def forward(network, x):
W1, W2, W3 = network['W1'], network['W2'], network['W3']
b1, b2, b3 = network['b1'], network['b2'], network['b3']
a1 = np.dot(x, W1) + b1
z1 = sigmoid(a1)
a2 = np.dot(z1, W2) + b2
z2 = sigmoid(a2)
a3 = np.dot(z2, W3) + b3
y = identity_function(a3)
return y
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y) # [ 0.31682708 0.69627909]
- 输出层的设计
神经网络可以用在分类问题和回归问题上,不过需要根据情况改变输出层的激活函数。一般而言,回归问题用恒等函数,分类问题用softmax 函数。
- softmax
softmax输出总和是1,所以输出可以解释为概率。softmax不会改变输入各个元素之间的大小关系,因为exp(x)
是单调递增函数。如果神经网络只把输出值最大的神经元所对应的类别作为识别结果,输出层的softmax 函数可以在推理(testing)省略。在实际的问题中,由于指数函数的运算需要一定的计算机运算量,因此输出层的softmax 函数一般会被省略。
def softmax(a):
exp_a = np.exp(a)
sum_exp_a = np.sum(exp_a)
y = exp_a / sum_exp_a
return y
上式的缺陷是溢出问题。softmax 函数的实现中要进行指数函数的运算,但是此时指数函数的值很容易变得非常大。
softmax函数的改进:
上式说明,再进行softmax计算时,对输入加上或减去某个常数不会改变计算结果。一般使用输入中的最大值。
def softmax(a):
c = np.max(a)
exp_a = np.exp(a - c) # 溢出对策
sum_exp_a =
np.sum(exp_a)
y = exp_a / sum_exp_a
return y
-
手写数字识别
网络中权重的设置
术语翻译
前向传播(forward propagation)
正规化(normalization)
预处理(pre-processing)