本篇主要内容:
1、在PaddlePaddle中训练、预测自定义单字验证码数据集
一、准备工作
如果对PaddlePaddle不熟悉,在实践本篇时遇到了问题,不妨查看一下本专题下的内容。
点击查看本专题所有文章
验证码数据集下载:https://github.com/GT-ZhangAcer/DLExample/tree/master/easy02_Reader
二、导入关键模块
import paddle.fluid as fluid
import numpy as np
import PIL.Image as Image
三、构建Reader
在深度学习中,训练并不是越多越好,因为训练只是对当前送给神经网络的那一部分负责。
举个考试的例子,平常老师给我们发测试题,我们做一遍可能还有不会的,再做一遍可能会好一些,当做到第N遍的时候...
你看到题了,就能回想起答案。如果这种情况持续了10年,你可能会渐渐记下这个答案,而不是这种题型的做题技巧!
当遇到了同一类型的新题时,还记得当年那个聪明的你吗?
所以,我们需要找到一个平衡点,当模型对新的数据表现不好时立刻停止训练,保证学到的是“做题技巧”而不是答案。这样的新数据,可以是测试集或交叉验证集(两者实际还是有一定差别,本专题深度学习开发篇(二)有简略介绍)
Reader部分
为了划分一部分数据作为交叉验证集,在这个reader中,我们在reader
函数外面再套上一个函数switch_reader
,方便选择reader返回的是哪一部分的数据,同时设置一个布尔类型的参数作为开关。
def switch_reader(is_val: bool = False):
def reader():
# 读取标签数据
with open(data_path + "/OCR_100P.txt", 'r') as f:
labels = f.read()
# 判断是否是验证集
if is_val:
index_range = range(1501, 2000)
else:
index_range = range(1, 1500)
# 抽取数据使用迭代器返回
for index in index_range:
im = Image.open(data_path + "/" + str(index) + ".jpg").convert('L') # 使用Pillow读取图片
im = np.array(im).reshape(1, 1, 30, 15).astype(np.float32) # NCHW格式
im /= 255 # 归一化以提升训练效果
lab = labels[index - 1] # 因为循环中i是从1开始迭代的,所有这里需要减去1
yield im, int(lab)
return reader # 注意!此处不需要带括号
这里需要注意的是,return reader
后不能加括号,因为我们要返回的是reader
这个函数对象,而不是调用这个函数,等划分mini batch时再进行调用它更为合适。
开始制作mini_batch
# 划分mini_batch
batch_size = 128
train_reader = fluid.io.batch(reader=switch_reader(), batch_size=batch_size)
val_reader = fluid.io.batch(reader=switch_reader(is_val=True), batch_size=batch_size)
定义输入层
该怎样塞进神经网络呢?我们需要给它制定一个规范对不对?
# 定义网络输入格式
img = fluid.data(name="img", shape=[-1, 1, 30, 15], dtype="float32")
# 把标签也顺便定义了吧
label = fluid.data(name='label', shape=[-1, 1], dtype='int64')
这里的-1, 1, 30, 15
分别代表Batch_size、C、H、W。
为什么Batch_size指定为-1
呢?
因为我们无法保证xxx_reader
每次返回的就是我们设置的128组数据,也就是说当我们只有200条数据时,第一组有128条,剩下的72条单独一组。
所以我们在这里把Batch_size位置设置为-1
,这样就可以自适应Batch_size的大小了。
四、使用PaddlePaddle搭建网络层
因为数据集特别简单,所以用简单的全连接层组成的网络就足以满足要求。
这里我们使用3层全连接层作为主要网络,因为刚刚我们已经定义好了输入层,所有现在可以直接定义隐藏层了~
# 定义第一个隐藏层,激活函数为ReLU
hidden = fluid.layers.fc(input=img, size=200, act='relu')
# 第二个,激活函数仍为ReLU
hidden = fluid.layers.fc(input=hidden, size=200, act='relu')
# 以softmax为激活函数的全连接层为输出层,输出层的大小必须为Label的总数10
net_out = fluid.layers.fc(input=hidden, size=10, act='softmax')
如果对激活函数不熟悉的话,可以先无脑Relu,因为Relu在大部分情况下表现很好。
用他不能保证一定是最优秀的,但至少能保证不会很轻松的挂掉。
五、训练开始前的配置
使用API计算正确率
acc = fluid.layers.accuracy(input=net_out, label=label)
这里的input
传入是输出层的结果,label
则为刚刚所定义的标签。
克隆一个程序给验证集使用
eval_prog = fluid.default_main_program().clone(for_test=True)
查看验证集的结果也需要将数据喂到神经网络里。
是不是还需要再把上面给训练集定义的部分,单独再定义一遍呢?
直接用API克隆出来一个吧,特别方便!
定义损失函数
loss = fluid.layers.cross_entropy(input=net_out, label=label)
avg_loss = fluid.layers.mean(loss)
如果对损失函数的作用不了解,可以参考之前的文章。
这里我们使用交叉熵损失函数,差不多就是计算网络层的输出与标签直接的差距还有多大。
定义优化方法
sgd_optimizer = fluid.optimizer.SGD(learning_rate=0.01)
sgd_optimizer.minimize(avg_loss) # 定义参数更新(反向传播也包含在内)
这里我们使用SGD随机梯度下降法作为优化方案。
但对于较复杂的数据集还是建议使用Adam来优化,效率可能会更高一些。
之所以把克隆验证程序放在定义优化方法之前,因为我们需要保证在验证时模型学到的全部是训练集的参数,验证集不可参与“学习”(参数更新),这样才知道到底学习的如何。
定义执行器
place = fluid.CPUPlace() #使用CPU训练,此处也可以换成GPU
exe = fluid.Executor(place)
数据传入顺序设置
feeder = fluid.DataFeeder(place=place, feed_list=[img, label])
这里的feed_list
的顺序对于Reader里yield返回的顺序。
六、开始训练
# 对网络层进行初始化
prog = fluid.default_startup_program()
exe.run(prog)
Epoch = 10 # 训练10轮
for i in range(Epoch):
batch_loss = None
batch_acc = None
# 训练集 只看loss来判断模型收敛情况
for batch_id, data in enumerate(train_reader()):
outs = exe.run(
feed=feeder.feed(data),
fetch_list=[loss])
batch_loss = np.average(outs[0])
# 验证集 只看准确率来判断收敛情况
for batch_id, data in enumerate(val_reader()):
outs = exe.run(program=eval_prog,
feed=feeder.feed(data),
fetch_list=[acc])
batch_acc = np.average(outs[0])
print("Epoch:", i, "\tLoss:{:3f}".format(batch_loss), "\tAcc:{:2f} %".format(batch_acc * 100))
为了输出看起来好看一些,对于训练集我们只要求返回loss的值,验证集只返回正确率的值。
这些都定义在fetch_list=[xxx]
中。
七、训练效果
可以看到验证集上效果非常棒,在第8个Epoch上已经达到了100%!(相信你知道为什么是第8个Epoch)
关于模型保存,下一节将对模型保存进行详细介绍。
示例代码以及数据集
https://github.com/GT-ZhangAcer/DLExample/tree/master/easy03_CV_Classify