mnist手写数字识别python_tensorflow实现MNIST手写数字识别

MNIST数据集是由0-9,10个手写数字组成。训练图像有60000张,测试图像有10000张。

1、在tensorflow中可以使用python下载数据集,调用download.py。代码如下:

from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot = True)

MNIST_data中数据不存在时,则自动将MNIST数据下载到该文件夹下。

one_hot表示独热码,一种类似于二进制的编码,例如0-9一共10个数,那么独热码就为10位:

0

1 0 0 0 0 0 0 0 0 0

1

0 1 0 0 0 0 0 0 0 0

2

0 0 1 0 0 0 0 0 0 0

3

0 0 0 1 0 0 0 0 0 0

4

0 0 0 0 1 0 0 0 0 0

5

0 0 0 0 0 1 0 0 0 0

6

0 0 0 0 0 0 1 0 0 0

7

0 0 0 0 0 0 0 1 0 0

8

0 0 0 0 0 0 0 0 1 0

9

0 0 0 0 0 0 0 0 0 1

2、定义卷积计算函数

def weight_variable(shape):

initial = tf.truncated_normal(shape, stddev = 0.1)

return tf.Variable(initial)

def bias_variable(shape):

initial = tf.constant(0.1, shape = shape)

return tf.Variable(initial)

def conv2d(x, W):

return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2*2(x):

return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

3、构建第一层卷积

在构建卷积之前,应该将输入图片格式转换成卷积中需要的格式,如下:

x_image = tf.reshape(x, [-1, 28, 28, 1])

第一层卷积:

W_conv1 = weight_variable([5, 5, 1, 32])

b_conv1 = bias_variable([32])

h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)

h_pool1 = max_pool_2*2(h_conv1)

W_conv1中,卷积核大小位5*5, 通道数为1, 个数为32个。因此卷积后得到的output大小为28*28,通道数为32。

4、构建第二层卷积

W_conv2 = weight_variable([5, 5, 32, 64])

b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)

h_pool2 = max_pool_2*2(h_conv2)

此时,因为前一层输出为[-1, 28, 28, 32]的图片,所以卷积核的通道数应为32。

卷积核的个数等于output的通道数,input的通道数等于卷积核的通道数。

5、构建全连接层

W_fc1 = weight_variable([7, 7, 64, 1024])

b_fc1 = bias_variable([1024])

h_reshape = tf.reshape(h_pool2, [-1, 7, 7, 64])

h_fc1 = tf.nn.relu(tf.matmul(h_reshape, W_fc1) + b_fc1)

keep_prob = tf.placeholder(tf.float32)

h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

tf.placeholder为占位符,相当于C语言中的变量声明。

这层全连接层的作用是将上一层卷积层的输出变成了1024维的列向量。

6、构建第二层全连接层

再添加一层全连接,将h_fc1_drop转换成10维列向量,对应的就是10个类别的权重。

W_fc2 = weight_variable([1024, 10])

b_fc2 = bias_variable([10])

y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2

此时得到的y_conv就是softMax中的Logit。

7、softmax & cross_entropy

输出的类别的权重应该进行softmax得到其概率,再计算交叉熵。Tensorflow中有tf.nn.softmax_cross_entropy_with_logits函数,同时将这两步进行了。

cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y_conv))

8、定义反向传播

train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

使用反向传播算法不断调节w和b参数的值,从而使得cross_entropy交叉熵的值最小,即损失最小。

9、计算准确率

predict_correct = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))

accuracy = tf.reduce_mean(tf.cast(predict_correct, tf.float32))

tf.equal()函数用来判断两个参数是否相等,tf.argmax()含义是取出数组中最大值的下标。例如判断5个样本是否相等,假如第1,2,3个样本相等,4,5个样本不想等,则tf.equal()得到的值为[true, true, true, false, false]。

tf.cast()则是将预测的N个样本对应的true或false值改为float32,即[1.0, 1.0, 1.0, 0.0, 0.0]。

tf.reduce_mean()则是计算数组中所有元素的平均值,相当于得到了模型的预测准确率。

10、训练

tensorflow需要创建session来进行训练。

sess = tf.InteractiveSession()

sess.run(tf.global_variables_initializer()) #初始化

for train_step_num in range(30000):

batch_x, batch_y = mnist.train.next(100) #每次从训练集中选100个图片进行训练,即每次训练100张图片,batch=100

train_step.run(feed_dict={x: batch_x, y_: batch_y, keep_prob=0.5})

本文地址:https://blog.csdn.net/luoxueqian/article/details/108230776

希望与广大网友互动??

点此进行留言吧!

你可能感兴趣的:(mnist手写数字识别python_tensorflow实现MNIST手写数字识别)