手写数字识别-卷积神经网络cnn

手写数字识别-卷积神经网络cnn

卷积和池化在深度学习中的作用是对图像和文本信息提取特征的常用方式,特别是在分类领域。
卷积: 通过不同的卷积核与图像或者文本进行矩阵相乘,得到不同特征的若干组训练特征数据。
池化:池化通常分类两种,最大池化和平均池化,最大池化就是一块矩阵领域,平均池化就是取四个像素点的平均值

卷积池化后再加上全连接层,详细可去搜索一下具体的介绍,我们直接看代码,代码关键部分给出了详细注释。

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data", one_hot=True)

#每批次的大小
batch_size = 100
#计算一共有多少批次
n_batch = mnist.train.num_examples // batch_size

#初始化权值
def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1) #生成截断的正态分布
    return tf.Variable(initial)
#初始化偏执值
def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)
#卷积层
def conv2d(x, W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')
#池化层
def max_pool_2x2(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

#定义两个placeholder
x=tf.placeholder(tf.float32,[None,784]) #28*28
y=tf.placeholder(tf.float32,[None,10])

#改变x的格式转为4D的向量[batch, in_height, in_width, in_channels]
x_image = tf.reshape(x,[-1,28,28,1])

#初始化第一个卷积层的权值和偏置
W_conv1=weight_variable([5,5,1,32]) #5*5的采样窗口,32个卷积核从一个平面抽取特征
b_conv1=bias_variable([32]) #每一个卷积核一个偏执值

#把x_image和权重向量进行卷积,再加上偏执值,然后应用于relu激活函数
h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)
h_pool1=max_pool_2x2(h_conv1) #进行max-pooling

#初始化第二个卷积层的权重和偏置
W_conv2=weight_variable([5,5,32,64]) #5*5的采样窗口,64个卷积核从32个平面抽取特征
b_conv2=bias_variable([64]) #每一个卷积核一个偏执值

#把h_pool1和权值向量进行卷积,再加上偏执值,然后应用于relu激活函数
h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)
h_pool2=max_pool_2x2(h_conv2)#进行maxpooling

#28*28的图像第一次卷积后还是28*28,第一次池化后变成14*14,最后得到32张14*14的平面
#第二次卷积后为14*14,第二次池化后为7*7,最后得到64张7*7的平面
#经过上面的操作后得到64张7*7的平面

#初始化第一个全连接的权值
W_fc1=weight_variable([7*7*64,100]) #上一层有7*7*64个神经元,全连接层有1024个神经元
b_fc1=bias_variable([100]) #1024个节点

#把池化层2的输出扁平化为1维
h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])
#求第一个全连接层的输出
h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

#keep_prob用来表示神经元的输出概率
keep_prob=tf.placeholder(tf.float32)
h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob)

#初始化第二个全连接层
W_fc2=weight_variable([100,10])
b_fc2=bias_variable([10])

#计算输出
prediction = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2)+b_fc2)

#交叉墒代价函数
cross_entropy=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=prediction))
#使用AdamOptimizier进行优化
train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

#结果存放在一个布尔列表中
correct_prediction=tf.equal(tf.argmax(prediction,1), tf.argmax(y,1)) #argmax返回一维张量中最大的值所在的位置

#求准确率
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for epoch in range(21):
        for batch in range(n_batch):
            batch_xs,batch_ys=mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={
     x:batch_xs,y:batch_ys,keep_prob:0.7})

        acc=sess.run(accuracy,feed_dict={
     x:mnist.test.images, y:mnist.test.labels,keep_prob:1.0})
        print ("Iter "+str(epoch) + ", Testing Accuracy= " +str(acc))

mnist数据集介绍

共有7万张图片。其中6万张用于训练神经网络,1万张用于测试神经网络。

每张图片是一个28*28像素点的0~9的手写数字图片。

黑底白字。黑底用0表示,白字用0~1之间的浮点数表示,越接近1,颜色越百。

我们把784个像素点组成一个长度为784的一维数组,这个一维数据就是我们要喂入神经网络的输入特征。MNIST数据集还提供了每张图片对应的标签,以一个长度为10的一维数组给出。

mnist数据集的下载

TensorFlow官方提供了input_data模块,input_data模块使用read_data_sets()函数自动加载数据集。函数第一个参数,是数据集存放路径。第二个参数one_hot=True表示以独热码的形式存取。

当函数运行时,会自动检查存放路径下是否有该数据集,如果没有,会自动下载MNIST数据集,并分为Train、Validation、Test三个子集。

我们的程序使用子集Train训练模型参数,使用子集Test测试准确率。

【注意】

有可能会报错,下不下来。那怎么办呢?

1.到下面这个网址,手动下载4个文件。型准确率。

下载地址

常用操作

一、我们可以用mnist.train.num_examples、mnist.validation.num_examples、minst.test.num_examples三个分别打印出训练集、验证集、测试集所含有的样本数。

二、可以用mnist.train.labels[i]、mnist.train.images[i]查看训练集中指定编号的标签或者图片。labels[0]表示第0张图的标签,images[0]表示第0张图的784个像素点。

例:

from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets('./',one_hot = True)

 

print("train data size:",mnist.train.num_examples)
print("validation data size:",mnist.validation.num_examples)
print("test data size:",mnist.test.num_examples)

print(mnist.train.labels[0])
运行结果:

Extracting ./train-images-idx3-ubyte.gz
Extracting ./train-labels-idx1-ubyte.gz
Extracting ./t10k-images-idx3-ubyte.gz
Extracting ./t10k-labels-idx1-ubyte.gz
train data size: 55000
validation data size: 5000
test data size: 10000
[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]

当定义好每轮输入的一小撮数据大小后(即BATCH_SIZE),可以使用mnist.train.next_batch(BATCH_SIZE)从训练集中随机抽取BATCH_SIZE组数据和标签,分别赋值给xs和ys。打印xs的形状,为200行,每行784个像素点,为输入的特征。打印ys的形状,为200行,每行10个数字。

我们记几个函数:

tf.get_collection("") 会从collection的集合中,取出全部变量,生成一个列表。

tf.add_n([]) 会把列表内的所有元素相加。

tf.cast(x,dtype) 会把x转换为指定类型。

tf.argmax(x,axis) 会返回axis指定的维度中,x最大值对应的索引号。这个x是个列表。比如tf.argmax([1,0,0],1)表示在第一个维度,找最大值的索引号。

os.path.join()是os模块的函数,这个函数可以把字符串按照路径的命名规则进行拼接。

字符串.split()用于字符串切分。

with tf.Graph().as_default() as g:     表示在其内定义的节点在计算图g中。一般用这种方法复现已经定义好的神经网络。网络做应用时,我们会用这种方法把神经网络复现到计算图。

我们说一下模型的保存和加载。

在反向传播中,如果想每隔一定轮数把模型保存下来,需要加上两句话。

首先是实例化saver对象。然后在with结构中,每隔一定轮数,把当前会话的参数等信息保存到MODEL_SAVE_PATH/MODEL_NAME这个路径,并在文件尾加上当前的训练轮数。

saver = tf.train.Saver()
with tf.Session as sess:
	 for i in range(STEPS):
	 	 if i%轮数 == 0:
	 	     saver.save(sess,os.path.join(MODEL_SAVE_PATH,MODEL_NAME),global_step = global_step)

加载模型的时候,在with结构中加载ckpt,如果ckpt和模型存在,则用saver.restore()把模型参数加载到当前会话中。

with tf.Session() as sess:
	ckpt = tf.train.get_checkpoint_state(存储路径)
    if ckpt and ckpt.model_checkpoint_path:
        saver.restore(sess, ckpt.model_checkpoint_path)	

如果训练过程中,使用过滑动平均,每个参数的滑动平均值也会被保存到模型中。我们使用模型识别图片时,更希望加载参数的滑动平均值,用这样三句话,实例化可以还原滑动平均值的saver对象。这样在运行加载模型的参数时,每个参数就会加载各自的滑动平均值了。

ema = tf.train.ExponentiaMoveingAverage(滑动平均基数)
ema_restore = ema.variables_to_restore()
saver = tf.train.Saver(ema_restore)

在手写数字的识别中,我们用这个方法评估模型的准确性。y是神经网络喂入的BATCH_SIZE的数据后的结果,是BATCH_SIZE*10的二维数组,每一行表示一轮BATCH前向传播的结果。tf.argmax(y,1)的第二个参数1,表示选取最大值的操作仅在第1个维度进行,也就是,返回每一行最大值所对应的列表索引号。tf.argmax(y,1)会得到一个长度为BATCH的一维数组,这个一维数组中的值就表示了每一轮样本推算出的数字识别结果。tf.equal()判断两个张量中每一维是否相等,如果相等返回True,否则返回False。

tf.cast(corect_prediction,tf.float32)将boolean型转换成实数型。然后计算平均值。这个平均值就是模型在这一组数据上的准确率。

correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1)
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

你可能感兴趣的:(难啃的深度学习,神经网络,tensorflow,深度学习)