深度学习开发篇(四):图像分类任务

本篇主要内容:
1、在PaddlePaddle中训练、预测自定义单字验证码数据集

一、准备工作

如果对PaddlePaddle不熟悉,在实践本篇时遇到了问题,不妨查看一下本专题下的内容。
点击查看本专题所有文章

验证码数据集下载:https://github.com/GT-ZhangAcer/DLExample/tree/master/easy02_Reader

二、导入关键模块

import paddle.fluid as fluid
import numpy as np
import PIL.Image as Image

三、构建Reader

在深度学习中,训练并不是越多越好,因为训练只是对当前送给神经网络的那一部分负责。

举个考试的例子,平常老师给我们发测试题,我们做一遍可能还有不会的,再做一遍可能会好一些,当做到第N遍的时候...

你看到题了,就能回想起答案。如果这种情况持续了10年,你可能会渐渐记下这个答案,而不是这种题型的做题技巧!

当遇到了同一类型的新题时,还记得当年那个聪明的你吗?

所以,我们需要找到一个平衡点,当模型对新的数据表现不好时立刻停止训练,保证学到的是“做题技巧”而不是答案。这样的新数据,可以是测试集或交叉验证集(两者实际还是有一定差别,本专题深度学习开发篇(二)有简略介绍)

Reader部分
为了划分一部分数据作为交叉验证集,在这个reader中,我们在reader函数外面再套上一个函数switch_reader,方便选择reader返回的是哪一部分的数据,同时设置一个布尔类型的参数作为开关。

def switch_reader(is_val: bool = False):
    def reader():
        # 读取标签数据
        with open(data_path + "/OCR_100P.txt", 'r') as f:
            labels = f.read()
        # 判断是否是验证集
        if is_val:
            index_range = range(1501, 2000)
        else:
            index_range = range(1, 1500)
        # 抽取数据使用迭代器返回
        for index in index_range:
            im = Image.open(data_path + "/" + str(index) + ".jpg").convert('L')  # 使用Pillow读取图片
            im = np.array(im).reshape(1, 1, 30, 15).astype(np.float32)  # NCHW格式
            im /= 255  # 归一化以提升训练效果
            lab = labels[index - 1]  # 因为循环中i是从1开始迭代的,所有这里需要减去1
            yield im, int(lab)

    return reader   # 注意!此处不需要带括号

这里需要注意的是,return reader后不能加括号,因为我们要返回的是reader这个函数对象,而不是调用这个函数,等划分mini batch时再进行调用它更为合适。

开始制作mini_batch

# 划分mini_batch
batch_size = 128
train_reader = fluid.io.batch(reader=switch_reader(), batch_size=batch_size)
val_reader = fluid.io.batch(reader=switch_reader(is_val=True), batch_size=batch_size)

定义输入层
该怎样塞进神经网络呢?我们需要给它制定一个规范对不对?

# 定义网络输入格式
img = fluid.data(name="img", shape=[-1, 1, 30, 15], dtype="float32")
# 把标签也顺便定义了吧
label = fluid.data(name='label', shape=[-1, 1], dtype='int64')

这里的-1, 1, 30, 15分别代表Batch_size、C、H、W。

为什么Batch_size指定为-1呢?
因为我们无法保证xxx_reader每次返回的就是我们设置的128组数据,也就是说当我们只有200条数据时,第一组有128条,剩下的72条单独一组。

所以我们在这里把Batch_size位置设置为-1,这样就可以自适应Batch_size的大小了。

四、使用PaddlePaddle搭建网络层

因为数据集特别简单,所以用简单的全连接层组成的网络就足以满足要求。

这里我们使用3层全连接层作为主要网络,因为刚刚我们已经定义好了输入层,所有现在可以直接定义隐藏层了~

# 定义第一个隐藏层,激活函数为ReLU
hidden = fluid.layers.fc(input=img, size=200, act='relu')
# 第二个,激活函数仍为ReLU
hidden = fluid.layers.fc(input=hidden, size=200, act='relu')
# 以softmax为激活函数的全连接层为输出层,输出层的大小必须为Label的总数10
net_out = fluid.layers.fc(input=hidden, size=10, act='softmax')

如果对激活函数不熟悉的话,可以先无脑Relu,因为Relu在大部分情况下表现很好。
用他不能保证一定是最优秀的,但至少能保证不会很轻松的挂掉。

五、训练开始前的配置

使用API计算正确率

acc = fluid.layers.accuracy(input=net_out, label=label)

这里的input传入是输出层的结果,label则为刚刚所定义的标签。

克隆一个程序给验证集使用

eval_prog = fluid.default_main_program().clone(for_test=True)

查看验证集的结果也需要将数据喂到神经网络里。
是不是还需要再把上面给训练集定义的部分,单独再定义一遍呢?
直接用API克隆出来一个吧,特别方便!

定义损失函数

loss = fluid.layers.cross_entropy(input=net_out, label=label)
avg_loss = fluid.layers.mean(loss)

如果对损失函数的作用不了解,可以参考之前的文章。
这里我们使用交叉熵损失函数,差不多就是计算网络层的输出与标签直接的差距还有多大。

定义优化方法

sgd_optimizer = fluid.optimizer.SGD(learning_rate=0.01)
sgd_optimizer.minimize(avg_loss)     # 定义参数更新(反向传播也包含在内)

这里我们使用SGD随机梯度下降法作为优化方案。
但对于较复杂的数据集还是建议使用Adam来优化,效率可能会更高一些。

之所以把克隆验证程序放在定义优化方法之前,因为我们需要保证在验证时模型学到的全部是训练集的参数,验证集不可参与“学习”(参数更新),这样才知道到底学习的如何。

定义执行器

place = fluid.CPUPlace()    #使用CPU训练,此处也可以换成GPU
exe = fluid.Executor(place)

数据传入顺序设置

feeder = fluid.DataFeeder(place=place, feed_list=[img, label])

这里的feed_list的顺序对于Reader里yield返回的顺序。

六、开始训练

# 对网络层进行初始化
prog = fluid.default_startup_program()
exe.run(prog)

Epoch = 10    # 训练10轮
for i in range(Epoch):
    batch_loss = None
    batch_acc = None
    # 训练集 只看loss来判断模型收敛情况
    for batch_id, data in enumerate(train_reader()):
        outs = exe.run(
            feed=feeder.feed(data),
            fetch_list=[loss])
        batch_loss = np.average(outs[0])
    # 验证集 只看准确率来判断收敛情况
    for batch_id, data in enumerate(val_reader()):
        outs = exe.run(program=eval_prog,
                       feed=feeder.feed(data),
                       fetch_list=[acc])
        batch_acc = np.average(outs[0])
    print("Epoch:", i, "\tLoss:{:3f}".format(batch_loss), "\tAcc:{:2f} %".format(batch_acc * 100))

为了输出看起来好看一些,对于训练集我们只要求返回loss的值,验证集只返回正确率的值。
这些都定义在fetch_list=[xxx]中。

七、训练效果


可以看到验证集上效果非常棒,在第8个Epoch上已经达到了100%!(相信你知道为什么是第8个Epoch)

关于模型保存,下一节将对模型保存进行详细介绍。

示例代码以及数据集

https://github.com/GT-ZhangAcer/DLExample/tree/master/easy03_CV_Classify

你可能感兴趣的:(深度学习开发篇(四):图像分类任务)