主角多会嘴遁,反派死于话多。
扯了三篇咱们直接开始上手一个项目体验下机器学习的魅力,相关的理论知识,遇到了咱们再拎出来介绍。
什么是MNIST?
MNIST(官方网站)是非常有名的手写体数字识别数据集,在Tensorflow的官方网站里,第一个就拿它来做实战讲解,咱们也以此作为开始的项目。它由手写体数字的图片和相对应的标签组成,如:
MNIST数据集分为训练图像和测试图像。训练图像60000张,测试图像10000张,每一个图片代表0-9中的一个数字,且图片大小均为28*28的矩阵。
train-images-idx3-ubyte.gz: training set images (9912422 bytes) 训练图片
train-labels-idx1-ubyte.gz: training set labels (28881 bytes) 训练标签
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 测试图片
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 测试标签
启动虚拟环境
source activate # virtual env是你的环境名字
打开Jupyter Notebook
jupyter notebook
加载Tensorflow,导入数据
我们使用被封装到tensorflow内部的MNIST数据
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
创建变量(varaible)和占位符(placeholder)
占位符类似一个函数,使用时传入参数值来使用。通俗来讲就好像我去教室里贴个纸条说这个位子被占了,但是我可以选择让谁去做。在这里None代表着可以是任何数值。
x = tf.placeholder(tf.float32, [None, 784])
y_ = tf.placeholder(tf.float32, [None, 10])
在TensorFlow中,变量的参数用tf.Variable表示
# W是模型的参数,是一个784*10的矩阵将一个784维的输入转换为一个10维的输出
W = tf.Variable(tf.zeros([784, 10]))
# b是偏置项(bias)。
b = tf.Variable(tf.zeros([10]))
# y=softmax(Wx + b),y表示模型的输出
y = tf.nn.softmax(tf.matmul(x, W) + b)
softmax是个简单的分类器,其结果是一个矩阵,分别代表着模型对于输入数据的预测属于各个分类的可能性。比如
[0.00, 0.01, 0.02, 0.01, 0.98, 0.01, 0.01, 0.00, 0.01, 0.02]
损失函数
损失函数是我们评价模型好坏的标准,我们优化模型的目标就是为了最小化损失函数,所以如何设定合理的损失函数是至关重要的。当然没有统一通用的损失函数,因为不同的模型可能是为了达到不同的效果,比如有的为了提高平均准确率,有的为了得出最小离散率等等。在这个基本款的模型里,我们暂时只使用交叉熵作为损失函数。为了方便理解,我们使用数学表达式。同学们也可以使用Tensorflow封装的函数:sparse_softmax_cross_entropy_with_logits
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y)))
参数优化
我们使用固定参数0.01,大家也可以试一试其他的参数值。我会在下一篇里提出这一步的优化方案以及解释。
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
创建Session
sess = tf.InteractiveSession() # 创建一个Session
tf.global_variables_initializer().run() # 初始化所有变量,分配内存。
进行梯度下降训练,优化模型参数
我们每次取100个数据作为一个batch用来训练参数,然后再取100个,共训练1000次。将当前batch(100组数据)的图片矩阵和标签传入占位符,并通过session运行train_step
# 分1000步梯度下降
for _ in range(1000):
batch_x, batch_y = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_x, y_: batch_y})
结果检测
# 正确的预测结果
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 计算预测准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 传入测试数据集,获取模型测试的正确率
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
对于模型的输出值,我们的到是一个关于各个分类的可能性预测,比如
[0.00, 0.01, 0.02, 0.01, 0.98, 0.01, 0.01, 0.00, 0.01, 0.02]。所以我们使用tf.argmax(y, 1)之后得到的是最有可能的那个值,即4。
tf.equal返回的是boolean值,所以我们使用tf.cast将其转换成float便于计算。
最终将测试数据集传入占位符进行计算,得到最终结果。
我们以上就实现了最基本的数据手写体识别,但是准确率也正如大家所见并不高,可以提升的空间也非常多。我们在下面的文章里详细分析每个步骤的缺点和如何优化,会有很多的知识点补充,大家一定会有很大的收获并会对机器学习的基本流程有清楚的理解。