multi-layer perceptron

代码实例:Tensorflow实现多层感知机

神经网络解决过拟合:Dropout
参数调节:Adagrad,Adam,Adadelta
梯度弥散:使用sigmoid在反向传播中会导致梯度值逐渐减小,除输出层之外,其它隐藏层的激活函数可以替换成ReLU,或者它的变种EIU,PReLU,RReLU

前面在MNIST数据集上用SoftMax激活函数实现了一个简单的手写数字识别器,
现在,在前述例子上加上隐藏层,提高神经网络的拟合能力;
将使用解决过拟合问题的Dropout,自适应学习速率的Adagrad,和解决梯度弥散问题的ReLU激活函数

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
mnist=input_data.read_data_sets("MNIST_data",one_hot=True)
sess=tf.InteractiveSession()

设置神经网络的参数:

设置神经网络参数,其中隐藏层的权重W1被初始化为截断的正态分布,因为模型使用的ReLU激活函数,
所以需要给权重加一点噪声来打破完全对称并且避免0梯度 ?????
b1,w2,b2都初始化为0;输出层使用的激活函数是sigmoid,这个激活函数在0附近的梯度最大,变化最快,所以参数先初始化为0

in_units=784
h1_units=300
w1=tf.Variable(tf.truncated_normal([in_units,h1_units],stddev=0.1))
b1=tf.Variable(tf.zeros([h1_units]))
w2=tf.Variable(tf.zeros([h1_units,10]))
b2=tf.Variable(tf.zeros([10]))

Dropout的思想很简单,就是在训练时,将某一层的输出节点数据随机丢弃一部分,具体做法为,随机选取神经网络的某个(些)隐藏层的部分节点,将其输出置零。

x=tf.placeholder(tf.float32,[None,in_units])
keep_prob=tf.placeholder(tf.float32)

定义神经网络结构,即隐藏层和输出层

hidden=tf.nn.relu(tf.add(tf.matmul(x,w1),b1))
hidden_drop=tf.nn.dropout(hidden,keep_prob)
y=tf.nn.softmax(tf.add(tf.matmul(hidden_drop,w2),b2))

定义损失函数cross entropy,优化器(即算法)Adagrad

y_=tf.placeholder(tf.float32,[None,10])
crossEntropy=tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y),reduction_indices=[1]))
train_step=tf.train.AdagradOptimizer(0.3).minimize(crossEntropy)

开始训练

tf.global_variables_initializer().run()
for i in range(3000):
    batch_xs,batch_ys=mnist.train.next_batch(100)
    train_step.run(feed_dict={x: batch_xs, y_: batch_ys,keep_prob:0.75})

模型评估

current_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(current_prediction,tf.float32))
print(accuracy.eval({x:mnist.test.images,y_:mnist.test.labels,keep_prob:1.0}))

输出

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
0.9782
Process finished with exit code 0

相对于使用单层感知机模型的仅根据图像的像素点来推断是哪个数字(详见单层感知机MNIST),由于增加了隐藏层,模型获得了提取横线、竖线、圆圈等高级特征的能力,而在输出层,每一个输出节点都共享这些特征,通过组合它们来判断类型。
同时,使用Dropout,ReLU,Adagrad等技术,也都对模型的精度有所提升,但是起决定性作用的还是隐藏层。

你可能感兴趣的:(multi-layer perceptron)