代码参考《深度学习图解》书籍的P116，在此基础上进行了注释和新增测试函数（sim）。
说实在的，这本书写得还不错。但个别地方理解起来还是比较晦涩的。比如为什么误差反向传播公式是误差乘输入，如何推导出来的，什么情况下适用，书中没有直接给出理论说明。不过，瑕不掩瑜。姑且看下去吧。公式这种头疼的东西，让它随风去吧。
在给代码之前，先画出网络结构图，如下所示。

反向传播

权值调整公式：
Wnew = Wold - 误差节点输入值alpha
理论如下(假设只有一个输入、一个输出和一个权值）

线性传递函数：
y = Wx。
评估函数采用均方误差：
MSE = (Wx-O) ^2 （公式1）
对W求导得：
dMSE/dW = 2(Wx-O)x=2errorx （公式2）
式中，O为网络目标输出值。
系数2不影响梯度方向，省略掉。
于是：
dMSE/dW = errorx （公式3）（√）
一般性，假设网络的传递函数为h = f(x)，则：
y = f(Wx)
同样地，
MSE = (f(Wx)-O)^2
根据链式法则求导得：
dMSE/dW = 2(f(Wx-O)(d(f(Wx))x = error(d(f(Wx))x

代码

注意，训练数据集与上一个例子不同，数量上少了几个，要统一，不然会掉坑里。

# streetlight_bp_network.py
# 利用bp神经网络学习信号灯，三层网络结构
# 中间层的传递函数为Relu函数

import numpy as np

np.random.seed(1) # 设置随机种子（0-1）


# 隐藏层传递函数Relu定义，如果输入大于0，返回输入，否则返回0.
# 言外之意，负数对系统不起作用
def relu(x):
    return (x>0)*x

# Relu的导数，大于0导数值为1（y=x的导数）；小于0导数值为0.
def relu2derivative(output):
    return (output>0)

# 输入层的输入变量，训练样本的输入
streetlights = np.array([[1, 0, 1],
                        [0, 1, 1],
                        [0, 0, 1],
                        [1, 1, 1]])

# 输出层的目标值，训练样本的目标值，列向量
walk_vs_stop = np.array([[1, 1, 0, 0]]).T

alpha = 0.2 #learn rate，学习率
hidden_size = 4  #隐层节点数

# 权重矩阵定义，取随机值[0-1]
weights_0_1 = 2*np.random.random((3,hidden_size))-1
weights_1_2 = 2*np.random.random((hidden_size,1))-1



# 训练函数，迭代次数可自定义
def train(iteration_times):
    global weights_0_1
    global weights_1_2
    global streetlights
    global walk_vs_stop

    for iteration in range(iteration_times):
        layer_2_error = 0
        for i in range(len(streetlights)):
            layer_0 = streetlights[i:i+1]
            layer_1 = relu(np.dot(layer_0,weights_0_1)) # layer1 output
            layer_2 = np.dot(layer_1,weights_1_2) #layer2 output 
            layer_2_error = layer_2_error + np.sum((layer_2 - walk_vs_stop[i:i+1])**2) #求总的误差, 评估函数为MSE
            layer_2_delta = (layer_2 - walk_vs_stop[i:i+1]) #网络训练值与目标值的误差
            layer_1_delta = layer_2_delta.dot(weights_1_2.T)*relu2derivative(layer_1)
            # 更新权重，由误差反向传播
            weights_1_2 = weights_1_2 - alpha*layer_1.T.dot(layer_2_delta)
            weights_0_1 = weights_0_1 - alpha*layer_0.T.dot(layer_1_delta)   #矩阵相乘
         
            
        if(iteration % 10 == 9): #每迭代10次，打印误差
            print("Error:"+str(layer_2_error))
                
def sim(streetlights_input):
    global weights_0_1
    global weights_1_2
    layer_1 = relu(np.dot(streetlights_input,weights_0_1)) # layer1 output
    layer_2 = np.dot(layer_1,weights_1_2) #layer2 output
    #print(layer_2)
    return layer_2


def main():
    input_str = input("请输入网络训练迭代次数:")
    iteration_times = int(input_str)
    if iteration_times>0 :
        train(iteration_times)
    else:
        print("迭代次数输入有误，程序终止！")
        return

    #训练完成，提示用户使用训练好的网络
    while(True):
        a,b,c = input("输入信号灯状态，用逗号,隔开:").split(',')
        a = int(a)
        b = int(b)
        c = int(c)
        input_data = np.array([a,b,c])
        prediction = sim(input_data)
        print("Prediction:"+str(prediction)+"\n")
        prediction = int(round(prediction[0],0))
        if prediction == 1:
            print("walk now is safe.\n")
        else:
            print("stop,or walk to hell.\n")
        
if __name__ == '__main__':
    main()

运行

训练100次，误差小的可以。使用训练集数据验证，效果还不错。

反向传播代码运行示例

建立你的第一个深度神经网络：反向传播

代码

运行

你可能感兴趣的:(建立你的第一个深度神经网络：反向传播)