联言命题

（笔记）第二章：一个案例吃透深度学习（下）

一、【手写数字识别】之资源配置

概述

无论是房价预测任务还是MNIST手写字数字识别任务，训练好一个模型不会超过十分钟，主要原因是我们所使用的神经网络比较简单。
但实际应用时，常会遇到更加复杂的机器学习或深度学习任务，需要运算速度更高的硬件（如GPU、NPU），甚至同时使用多个机器共同训练一个任务（多卡训练和多机训练）。本节我们通过资源配置的优化，提升模型训练效率的方法。

图1：“横纵式”教学法 — 资源配置

前提条件

在优化算法之前，需要进行数据处理、设计神经网络结构，代码与之前保持一致。

# 加载相关库
import os
import random
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Conv2D, Pool2D, Linear
import numpy as np
from PIL import Image

import gzip
import json

# 定义数据集读取器
def load_data(mode='train'):

    # 读取数据文件
    datafile = './work/mnist.json.gz'
    print('loading mnist dataset from {} ......'.format(datafile))
    data = json.load(gzip.open(datafile))
    # 读取数据集中的训练集，验证集和测试集
    train_set, val_set, eval_set = data

    # 数据集相关参数，图片高度IMG_ROWS, 图片宽度IMG_COLS
    IMG_ROWS = 28
    IMG_COLS = 28
    # 根据输入mode参数决定使用训练集，验证集还是测试
    if mode == 'train':
        imgs = train_set[0]
        labels = train_set[1]
    elif mode == 'valid':
        imgs = val_set[0]
        labels = val_set[1]
    elif mode == 'eval':
        imgs = eval_set[0]
        labels = eval_set[1]
    # 获得所有图像的数量
    imgs_length = len(imgs)
    # 验证图像数量和标签数量是否一致
    assert len(imgs) == len(labels), \
          "length of train_imgs({}) should be the same as train_labels({})".format(
                  len(imgs), len(labels))

    index_list = list(range(imgs_length))

    # 读入数据时用到的batchsize
    BATCHSIZE = 100

    # 定义数据生成器
    def data_generator():
        # 训练模式下，打乱训练数据
        if mode == 'train':
            random.shuffle(index_list)
        imgs_list = []
        labels_list = []
        # 按照索引读取数据
        for i in index_list:
            # 读取图像和标签，转换其尺寸和类型
            img = np.reshape(imgs[i], [1, IMG_ROWS, IMG_COLS]).astype('float32')
            label = np.reshape(labels[i], [1]).astype('int64')
            imgs_list.append(img) 
            labels_list.append(label)
            # 如果当前数据缓存达到了batch size，就返回一个批次数据
            if len(imgs_list) == BATCHSIZE:
                yield np.array(imgs_list), np.array(labels_list)
                # 清空数据缓存列表
                imgs_list = []
                labels_list = []

        # 如果剩余数据的数目小于BATCHSIZE，
        # 则剩余数据一起构成一个大小为len(imgs_list)的mini-batch
        if len(imgs_list) > 0:
            yield np.array(imgs_list), np.array(labels_list)

    return data_generator


# 定义模型结构
class MNIST(fluid.dygraph.Layer):
     def __init__(self):
         super(MNIST, self).__init__()
         
         # 定义一个卷积层，使用relu激活函数
         self.conv1 = Conv2D(num_channels=1, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool1 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个卷积层，使用relu激活函数
         self.conv2 = Conv2D(num_channels=20, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool2 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个全连接层，输出节点数为10 
         self.fc = Linear(input_dim=980, output_dim=10, act='softmax')
    # 定义网络的前向计算过程
     def forward(self, inputs):
         x = self.conv1(inputs)
         x = self.pool1(x)
         x = self.conv2(x)
         x = self.pool2(x)
         x = fluid.layers.reshape(x, [x.shape[0], 980])
         x = self.fc(x)
         return x

单GPU训练

飞桨动态图通过fluid.dygraph.guard(place=None)里的place参数，设置在GPU上训练还是CPU上训练。

with fluid.dygraph.guard(place=fluid.CPUPlace())　#设置使用CPU资源训神经网络。
with fluid.dygraph.guard(place=fluid.CUDAPlace(0))　#设置使用GPU资源训神经网络，默认使用服务器的第一个GPU卡。"0"是GPU卡的编号，比如一台服务器有的四个GPU卡，编号分别为０、１、２、３。

#仅前3行代码有所变化，在使用GPU时，可以将use_gpu变量设置成True
use_gpu = False
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard(place):
    model = MNIST()
    model.train()
    #调用加载数据的函数
    train_loader = load_data('train')
    
    #四种优化算法的设置方案，可以逐一尝试效果
    optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.MomentumOptimizer(learning_rate=0.01, momentum=0.9, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.AdagradOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.AdamOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    
    EPOCH_NUM = 2
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程
            predict = model(image)
            
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了200批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}".format(epoch_id, batch_id, avg_loss.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')

loading mnist dataset from ./work/mnist.json.gz ......
epoch: 0, batch: 0, loss is: [2.351801]
epoch: 0, batch: 200, loss is: [0.41903907]
epoch: 0, batch: 400, loss is: [0.41572136]
epoch: 1, batch: 0, loss is: [0.36748636]
epoch: 1, batch: 200, loss is: [0.12394204]
epoch: 1, batch: 400, loss is: [0.33261067]

分布式训练

在工业实践中，很多较复杂的任务需要使用更强大的模型。强大模型加上海量的训练数据，经常导致模型训练耗时严重。比如在计算机视觉分类任务中，训练一个在ImageNet数据集上精度表现良好的模型，大概需要一周的时间，因为过程中我们需要不断尝试各种优化的思路和方案。如果每次训练均要耗时1周，这会大大降低模型迭代的速度。在机器资源充沛的情况下，建议采用分布式训练，大部分模型的训练时间可压缩到小时级别。

分布式训练有两种实现模式：模型并行和数据并行。

模型并行

模型并行是将一个网络模型拆分为多份，拆分后的模型分到多个设备上（GPU）训练，每个设备的训练数据是相同的。模型并行的实现模式可以节省内存，但是应用较为受限。

模型并行的方式一般适用于如下两个场景：

模型架构过大： 完整的模型无法放入单个GPU。如2012年ImageNet大赛的冠军模型AlexNet是模型并行的典型案例，由于当时GPU内存较小，单个GPU不足以承担AlexNet，因此研究者将AlexNet拆分为两部分放到两个GPU上并行训练。
网络模型的结构设计相对独立： 当网络模型的设计结构可以并行化时，采用模型并行的方式。如在计算机视觉目标检测任务中，一些模型（如YOLO9000）的边界框回归和类别预测是独立的，可以将独立的部分放到不同的设备节点上完成分布式训练。

数据并行

数据并行与模型并行不同，数据并行每次读取多份数据，读取到的数据输入给多个设备（GPU）上的模型，每个设备上的模型是完全相同的，飞桨采用的就是这种方式。

说明：

当前GPU硬件技术快速发展，深度学习使用的主流GPU的内存已经足以满足大多数的网络模型需求，所以大多数情况下使用数据并行的方式。

数据并行的方式与众人拾柴火焰高的道理类似，如果把训练数据比喻为砖头，把一个设备（GPU）比喻为一个人，那单GPU训练就是一个人在搬砖，多GPU训练就是多个人同时搬砖，每次搬砖的数量倍数增加，效率呈倍数提升。值得注意的是，每个设备的模型是完全相同的，但是输入数据不同，因此每个设备的模型计算出的梯度是不同的。如果每个设备的梯度只更新当前设备的模型，就会导致下次训练时，每个模型的参数都不相同。因此我们还需要一个梯度同步机制，保证每个设备的梯度是完全相同的。

梯度同步有两种方式：PRC通信方式和NCCL2通信方式（Nvidia Collective multi-GPU Communication Library）。

PRC通信方式

PRC通信方式通常用于CPU分布式训练，它有两个节点：参数服务器Parameter server和训练节点Trainer，结构如图2 所示。

图2：Pserver通信方式的结构

parameter server收集来自每个设备的梯度更新信息，并计算出一个全局的梯度更新。Trainer用于训练，每个Trainer上的程序相同，但数据不同。当Parameter server收到来自Trainer的梯度更新请求时，统一更新模型的梯度。

NCCL2通信方式（Collective）

当前飞桨的GPU分布式训练使用的是基于NCCL2的通信方式，结构如图3 所示。

图3：NCCL2通信方式的结构

相比PRC通信方式，使用NCCL2（Collective通信方式）进行分布式训练，不需要启动Parameter server进程，每个Trainer进程保存一份完整的模型参数，在完成梯度计算之后通过Trainer之间的相互通信，Reduce梯度数据到所有节点的所有设备，然后每个节点再各自完成参数更新。

飞桨提供了便利的数据并行训练方式，用户只需要对程序进行简单修改，即可实现在多GPU上并行训练。接下来讲述如何将一个单机程序通过简单的改造，变成多机多卡程序。

说明：

AI Studio当前仅支持单卡GPU，因此本案例需要在本地GPU上执行，无法在AI Studio上演示。

在启动训练前，需要配置如下参数：

从环境变量获取设备的ID，并指定给CUDAPlace。

  device_id = fluid.dygraph.parallel.Env().dev_id
  place = fluid.CUDAPlace(device_id)

对定义的网络做预处理，设置为并行模式。

  strategy = fluid.dygraph.parallel.prepare_context() ## 新增
  model = MNIST()
  model = fluid.dygraph.parallel.DataParallel(model, strategy)  ## 新增

定义多GPU训练的reader，不同ID的GPU加载不同的数据集。

  valid_loader = paddle.batch(paddle.dataset.mnist.test(), batch_size=16, drop_last=true)
  valid_loader = fluid.contrib.reader.distributed_batch_reader(valid_loader)

收集每批次训练数据的loss，并聚合参数的梯度。

  avg_loss = model.scale_loss(avg_loss)  ## 新增
  avg_loss.backward()
  mnist.apply_collective_grads()         ## 新增

完整程序如下所示。

def train_multi_gpu():
    
    ##修改1-从环境变量获取使用GPU的序号
    place = fluid.CUDAPlace(fluid.dygraph.parallel.Env().dev_id)

    with fluid.dygraph.guard(place):
    
        ##修改2-对原模型做并行化预处理
        strategy = fluid.dygraph.parallel.prepare_context()
        model = MNIST()
        model = fluid.dygraph.parallel.DataParallel(model, strategy)

        model.train()

        #调用加载数据的函数
        train_loader = load_data('train')
        ##修改3-多GPU数据读取，必须确保每个进程读取的数据是不同的
        train_loader = fluid.contrib.reader.distributed_batch_reader(train_loader)

        optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01, parameter_list=model.parameters())
        EPOCH_NUM = 5
        for epoch_id in range(EPOCH_NUM):
            for batch_id, data in enumerate(train_loader()):
                #准备数据
                image_data, label_data = data
                image = fluid.dygraph.to_variable(image_data)
                label = fluid.dygraph.to_variable(label_data)

                predict = model(image)

                loss = fluid.layers.cross_entropy(predict, label)
                avg_loss = fluid.layers.mean(loss)

                # 修改4-多GPU训练需要对Loss做出调整，并聚合不同设备上的参数梯度
                avg_loss = model.scale_loss(avg_loss)
                avg_loss.backward()
                model.apply_collective_grads()
                # 最小化损失函数，清除本次训练的梯度
                optimizer.minimize(avg_loss)
                model.clear_gradients()
                
                if batch_id % 200 == 0:
                    print("epoch: {}, batch: {}, loss is: {}".format(epoch_id, batch_id, avg_loss.numpy()))

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')

启动多GPU的训练，还需要在命令行中设置一些参数变量。打开终端，运行如下命令：

$ python -m paddle.distributed.launch --selected_gpus=0,1,2,3 --log_dir ./mylog train_multi_gpu.py

paddle.distributed.launch：启动分布式运行。
selected_gpus：设置使用的GPU的序号（需要是多GPU卡的机器，通过命令watch nvidia-smi查看GPU的序号）。
log_dir：存放训练的log，若不设置，每个GPU上的训练信息都会打印到屏幕。
train_multi_gpu.py：多GPU训练的程序，包含修改过的train_multi_gpu()函数。

训练完成后，在指定的./mylog文件夹下会产生四个日志文件，其中worklog.0的内容如下：

grep: warning: GREP_OPTIONS is deprecated; please use an alias or script
dev_id 0
I1104 06:25:04.377323 31961 nccl_context.cc:88] worker: 127.0.0.1:6171 is not ready, will retry after 3 seconds...
I1104 06:25:07.377645 31961 nccl_context.cc:127] init nccl context nranks: 3 local rank: 0 gpu id: 1↩
W1104 06:25:09.097079 31961 device_context.cc:235] Please NOTE: device: 1, CUDA Capability: 61, Driver API Version: 10.1, Runtime API Version: 9.0
W1104 06:25:09.104460 31961 device_context.cc:243] device: 1, cuDNN Version: 7.5.
start data reader (trainers_num: 3, trainer_id: 0)
epoch: 0, batch_id: 10, loss is: [0.47507238]
epoch: 0, batch_id: 20, loss is: [0.25089613]
epoch: 0, batch_id: 30, loss is: [0.13120805]
epoch: 0, batch_id: 40, loss is: [0.12122715]
epoch: 0, batch_id: 50, loss is: [0.07328521]
epoch: 0, batch_id: 60, loss is: [0.11860339]
epoch: 0, batch_id: 70, loss is: [0.08205047]
epoch: 0, batch_id: 80, loss is: [0.08192863]
epoch: 0, batch_id: 90, loss is: [0.0736289]
epoch: 0, batch_id: 100, loss is: [0.08607423]
start data reader (trainers_num: 3, trainer_id: 0)
epoch: 1, batch_id: 10, loss is: [0.07032011]
epoch: 1, batch_id: 20, loss is: [0.09687119]
epoch: 1, batch_id: 30, loss is: [0.0307216]
epoch: 1, batch_id: 40, loss is: [0.03884467]
epoch: 1, batch_id: 50, loss is: [0.02801813]
epoch: 1, batch_id: 60, loss is: [0.05751991]
epoch: 1, batch_id: 70, loss is: [0.03721186]
.....

二、【手写数字识别】之训练调试与优化

概述

上一节我们研究了资源部署优化的方法，通过使用单GPU和分布式部署，提升模型训练的效率。本节我们依旧横向展开"横纵式"，如图1 所示，探讨在手写数字识别任务中，为了保证模型的真实效果，在模型训练部分，对模型进行一些调试和优化的方法。

图1：“横纵式”教学法 — 训练过程

训练过程优化思路主要有如下五个关键环节：

1. 计算分类准确率，观测模型训练效果。

交叉熵损失函数只能作为优化目标，无法直接准确衡量模型的训练效果。准确率可以直接衡量训练效果，但由于其离散性质，不适合做为损失函数优化神经网络。

2. 检查模型训练过程，识别潜在问题。

如果模型的损失或者评估指标表现异常，通常需要打印模型每一层的输入和输出来定位问题，分析每一层的内容来获取错误的原因。

3. 加入校验或测试，更好评价模型效果。

理想的模型训练结果是在训练集和验证集上均有较高的准确率，如果训练集上的准确率高于验证集，说明网络训练程度不够；如果验证集的准确率高于训练集，可能是发生了过拟合现象。通过在优化目标中加入正则化项的办法，解决过拟合的问题。

4. 加入正则化项，避免模型过拟合。

飞桨框架支持为整体参数加入正则化项，这是通常的做法。此外，飞桨框架也支持为某一层或某一部分的网络单独加入正则化项，以达到精细调整参数训练的效果。

5. 可视化分析。

用户不仅可以通过打印或使用matplotlib库作图，飞桨还提供了更专业的可视化分析工具VisualDL，提供便捷的可视化分析方法。

计算模型的分类准确率

准确率是一个直观衡量分类模型效果的指标，由于这个指标是离散的，因此不适合作为损失函数来优化。通常情况下，交叉熵损失越小的模型，分类的准确率也越高。基于分类准确率，我们可以公平的比较两种损失函数的优劣，例如【手写数字识别】之损失函数章节中均方误差和交叉熵的比较。

飞桨提供了计算分类准确率的API，使用fluid.layers.accuracy可以直接计算准确率，该API的输入参数input为预测的分类结果predict，输入参数label为数据真实的label。

在下述代码中，我们在模型前向计算过程forward函数中计算分类准确率，并在训练时打印每个批次样本的分类准确率。

# 加载相关库
import os
import random
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Conv2D, Pool2D, Linear
import numpy as np
from PIL import Image

import gzip
import json

# 定义数据集读取器
def load_data(mode='train'):

    # 读取数据文件
    datafile = './work/mnist.json.gz'
    print('loading mnist dataset from {} ......'.format(datafile))
    data = json.load(gzip.open(datafile))
    # 读取数据集中的训练集，验证集和测试集
    train_set, val_set, eval_set = data

    # 数据集相关参数，图片高度IMG_ROWS, 图片宽度IMG_COLS
    IMG_ROWS = 28
    IMG_COLS = 28
    # 根据输入mode参数决定使用训练集，验证集还是测试
    if mode == 'train':
        imgs = train_set[0]
        labels = train_set[1]
    elif mode == 'valid':
        imgs = val_set[0]
        labels = val_set[1]
    elif mode == 'eval':
        imgs = eval_set[0]
        labels = eval_set[1]
    # 获得所有图像的数量
    imgs_length = len(imgs)
    # 验证图像数量和标签数量是否一致
    assert len(imgs) == len(labels), \
          "length of train_imgs({}) should be the same as train_labels({})".format(
                  len(imgs), len(labels))

    index_list = list(range(imgs_length))

    # 读入数据时用到的batchsize
    BATCHSIZE = 100

    # 定义数据生成器
    def data_generator():
        # 训练模式下，打乱训练数据
        if mode == 'train':
            random.shuffle(index_list)
        imgs_list = []
        labels_list = []
        # 按照索引读取数据
        for i in index_list:
            # 读取图像和标签，转换其尺寸和类型
            img = np.reshape(imgs[i], [1, IMG_ROWS, IMG_COLS]).astype('float32')
            label = np.reshape(labels[i], [1]).astype('int64')
            imgs_list.append(img) 
            labels_list.append(label)
            # 如果当前数据缓存达到了batch size，就返回一个批次数据
            if len(imgs_list) == BATCHSIZE:
                yield np.array(imgs_list), np.array(labels_list)
                # 清空数据缓存列表
                imgs_list = []
                labels_list = []

        # 如果剩余数据的数目小于BATCHSIZE，
        # 则剩余数据一起构成一个大小为len(imgs_list)的mini-batch
        if len(imgs_list) > 0:
            yield np.array(imgs_list), np.array(labels_list)

    return data_generator


# 定义模型结构
class MNIST(fluid.dygraph.Layer):
     def __init__(self):
         super(MNIST, self).__init__()
         
         # 定义一个卷积层，使用relu激活函数
         self.conv1 = Conv2D(num_channels=1, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool1 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个卷积层，使用relu激活函数
         self.conv2 = Conv2D(num_channels=20, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool2 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个全连接层，输出节点数为10 
         self.fc = Linear(input_dim=980, output_dim=10, act='softmax')
    # 定义网络的前向计算过程
     def forward(self, inputs, label):
         x = self.conv1(inputs)
         x = self.pool1(x)
         x = self.conv2(x)
         x = self.pool2(x)
         x = fluid.layers.reshape(x, [x.shape[0], 980])
         x = self.fc(x)
         if label is not None:
             acc = fluid.layers.accuracy(input=x, label=label)
             return x, acc
         else:
             return x

#调用加载数据的函数
train_loader = load_data('train')
    
#在使用GPU机器时，可以将use_gpu变量设置成True
use_gpu = False
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard(place):
    model = MNIST()
    model.train() 
    
    #四种优化算法的设置方案，可以逐一尝试效果
    optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.MomentumOptimizer(learning_rate=0.01, momentum=0.9, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.AdagradOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.AdamOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    
    EPOCH_NUM = 5
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程，同时拿到模型输出值和分类准确率
            predict, acc = model(image, label)
            
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了200批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(), acc.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')

loading mnist dataset from ./work/mnist.json.gz ......
epoch: 0, batch: 0, loss is: [2.643961], acc is [0.21]
epoch: 0, batch: 200, loss is: [0.48539692], acc is [0.87]
epoch: 0, batch: 400, loss is: [0.13475493], acc is [0.97]
epoch: 1, batch: 0, loss is: [0.242902], acc is [0.93]
epoch: 1, batch: 200, loss is: [0.13521576], acc is [0.96]
epoch: 1, batch: 400, loss is: [0.11970446], acc is [0.96]
epoch: 2, batch: 0, loss is: [0.16194618], acc is [0.92]
epoch: 2, batch: 200, loss is: [0.30858696], acc is [0.93]
epoch: 2, batch: 400, loss is: [0.05798883], acc is [0.99]
epoch: 3, batch: 0, loss is: [0.06590404], acc is [0.98]
epoch: 3, batch: 200, loss is: [0.09361169], acc is [0.96]
epoch: 3, batch: 400, loss is: [0.0949958], acc is [0.97]
epoch: 4, batch: 0, loss is: [0.1374774], acc is [0.97]
epoch: 4, batch: 200, loss is: [0.07921284], acc is [0.99]
epoch: 4, batch: 400, loss is: [0.09471921], acc is [0.97]

检查模型训练过程，识别潜在训练问题

使用飞桨动态图可以方便的查看和调试训练的执行过程。在网络定义的Forward函数中，可以打印每一层输入输出的尺寸，以及每层网络的参数。通过查看这些信息，不仅可以更好地理解训练的执行过程，还可以发现潜在问题，或者启发继续优化的思路。

在下述程序中，使用check_shape变量控制是否打印“尺寸”，验证网络结构是否正确。使用check_content变量控制是否打印“内容值”，验证数据分布是否合理。假如在训练中发现中间层的部分输出持续为0，说明该部分的网络结构设计存在问题，没有充分利用。

# 定义模型结构
class MNIST(fluid.dygraph.Layer):
     def __init__(self):
         super(MNIST, self).__init__()
         
         # 定义一个卷积层，使用relu激活函数
         self.conv1 = Conv2D(num_channels=1, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool1 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个卷积层，使用relu激活函数
         self.conv2 = Conv2D(num_channels=20, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool2 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个全连接层，输出节点数为10 
         self.fc = Linear(input_dim=980, output_dim=10, act='softmax')
     
     # 加入对每一层输入和输出的尺寸和数据内容的打印，根据check参数决策是否打印每层的参数和输出尺寸
     def forward(self, inputs, label=None, check_shape=False, check_content=False):
         # 给不同层的输出不同命名，方便调试
         outputs1 = self.conv1(inputs)
         outputs2 = self.pool1(outputs1)
         outputs3 = self.conv2(outputs2)
         outputs4 = self.pool2(outputs3)
         _outputs4 = fluid.layers.reshape(outputs4, [outputs4.shape[0], -1])
         outputs5 = self.fc(_outputs4)
         
         # 选择是否打印神经网络每层的参数尺寸和输出尺寸，验证网络结构是否设置正确
         if check_shape:
             # 打印每层网络设置的超参数-卷积核尺寸，卷积步长，卷积padding，池化核尺寸
             print("\n########## print network layer's superparams ##############")
             print("conv1-- kernel_size:{}, padding:{}, stride:{}".format(self.conv1.weight.shape, self.conv1._padding, self.conv1._stride))
             print("conv2-- kernel_size:{}, padding:{}, stride:{}".format(self.conv2.weight.shape, self.conv2._padding, self.conv2._stride))
             print("pool1-- pool_type:{}, pool_size:{}, pool_stride:{}".format(self.pool1._pool_type, self.pool1._pool_size, self.pool1._pool_stride))
             print("pool2-- pool_type:{}, poo2_size:{}, pool_stride:{}".format(self.pool2._pool_type, self.pool2._pool_size, self.pool2._pool_stride))
             print("fc-- weight_size:{}, bias_size_{}, activation:{}".format(self.fc.weight.shape, self.fc.bias.shape, self.fc._act))
             
             # 打印每层的输出尺寸
             print("\n########## print shape of features of every layer ###############")
             print("inputs_shape: {}".format(inputs.shape))
             print("outputs1_shape: {}".format(outputs1.shape))
             print("outputs2_shape: {}".format(outputs2.shape))
             print("outputs3_shape: {}".format(outputs3.shape))
             print("outputs4_shape: {}".format(outputs4.shape))
             print("outputs5_shape: {}".format(outputs5.shape))
             
         # 选择是否打印训练过程中的参数和输出内容，可用于训练过程中的调试
         if check_content:
            # 打印卷积层的参数-卷积核权重，权重参数较多，此处只打印部分参数
             print("\n########## print convolution layer's kernel ###############")
             print("conv1 params -- kernel weights:", self.conv1.weight[0][0])
             print("conv2 params -- kernel weights:", self.conv2.weight[0][0])

             # 创建随机数，随机打印某一个通道的输出值
             idx1 = np.random.randint(0, outputs1.shape[1])
             idx2 = np.random.randint(0, outputs3.shape[1])
             # 打印卷积-池化后的结果，仅打印batch中第一个图像对应的特征
             print("\nThe {}th channel of conv1 layer: ".format(idx1), outputs1[0][idx1])
             print("The {}th channel of conv2 layer: ".format(idx2), outputs3[0][idx2])
             print("The output of last layer:", outputs5[0], '\n')
            
        # 如果label不是None，则计算分类精度并返回
         if label is not None:
             acc = fluid.layers.accuracy(input=outputs5, label=label)
             return outputs5, acc
         else:
             return outputs5

    
#在使用GPU机器时，可以将use_gpu变量设置成True
use_gpu = False
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard(place):
    model = MNIST()
    model.train() 
    
    #四种优化算法的设置方案，可以逐一尝试效果
    optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.MomentumOptimizer(learning_rate=0.01, momentum=0.9, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.AdagradOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    #optimizer = fluid.optimizer.AdamOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    
    EPOCH_NUM = 1
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程，同时拿到模型输出值和分类准确率
            if batch_id == 0 and epoch_id==0:
                # 打印模型参数和每层输出的尺寸
                predict, acc = model(image, label, check_shape=True, check_content=False)
            elif batch_id==401:
                # 打印模型参数和每层输出的值
                predict, acc = model(image, label, check_shape=False, check_content=True)
            else:
                predict, acc = model(image, label)
            
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了100批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(), acc.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')
    print("Model has been saved.")

########## print network layer's superparams ##############
conv1-- kernel_size:[20, 1, 5, 5], padding:[2, 2], stride:[1, 1]
conv2-- kernel_size:[20, 20, 5, 5], padding:[2, 2], stride:[1, 1]
pool1-- pool_type:max, pool_size:[2, 2], pool_stride:[2, 2]
pool2-- pool_type:max, poo2_size:[2, 2], pool_stride:[2, 2]
fc-- weight_size:[980, 10], bias_size_[10], activation:softmax

########## print shape of features of every layer ###############
inputs_shape: [100, 1, 28, 28]
outputs1_shape: [100, 20, 28, 28]
outputs2_shape: [100, 20, 14, 14]
outputs3_shape: [100, 20, 14, 14]
outputs4_shape: [100, 20, 7, 7]
outputs5_shape: [100, 10]
epoch: 0, batch: 0, loss is: [2.4436905], acc is [0.12]
epoch: 0, batch: 200, loss is: [0.5071287], acc is [0.85]
epoch: 0, batch: 400, loss is: [0.33369377], acc is [0.9]

########## print convolution layer's kernel ###############
conv1 params -- kernel weights: name tmp_9640, dtype: VarType.FP32 shape: [5, 5] 	lod: {}
	dim: 5, 5
	layout: NCHW
	dtype: float
	data: [-0.0788555 -0.263069 0.173067 0.0943731 -0.330341 0.0236578 -0.179387 0.210532 -0.447157 -0.0522538 -0.0654522 0.217332 -0.0451361 0.150161 -0.0948279 0.0692094 -0.0831029 -0.106822 -0.0641434 0.175998 -0.246845 0.182557 -0.0475383 0.0575641 0.00949544]

conv2 params -- kernel weights: name tmp_9642, dtype: VarType.FP32 shape: [5, 5] 	lod: {}
	dim: 5, 5
	layout: NCHW
	dtype: float
	data: [0.0423198 0.073819 0.0338475 -0.0274708 0.0477285 -0.0288095 0.0534335 0.0215134 -0.0577497 -0.0343794 -0.023998 -0.0832208 0.0250395 -0.00252906 0.0141905 -0.00945345 -0.0830555 -0.00147843 0.0212909 0.03187 0.0439529 0.0296657 -0.0700109 0.0171939 0.098752]


The 4th channel of conv1 layer:  name tmp_9644, dtype: VarType.FP32 shape: [28, 28] 	lod: {}
	dim: 28, 28
	layout: NCHW
	dtype: float
	data: [0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.021769 0.206861 0.515136 0.321631 0.0243235 0 0 0 0 0 0 0 0 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.0668731 0.524322 1.00596 0.860126 0.536083 0.253132 0.141473 0.0800665 0 0 0 0 0 0 0 0 0 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.0604853 0.415215 0.837638 1.33614 1.58236 1.83481 1.72051 1.62514 1.4474 1.12601 0.968901 0.73601 0.359039 0.297623 0.201985 0 0 0 0 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.0746841 0.523313 0.608934 1.36186 2.1777 2.50967 2.54228 2.49515 2.27341 2.35814 2.35396 2.17972 1.97005 1.99839 1.83783 1.42219 1.01067 0.676495 0.172069 0 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.0612366 0.241015 0.0724264 0.524382 1.09504 1.88296 2.39797 2.60094 2.61296 2.62991 2.73247 2.59973 2.60205 2.681 2.62454 2.70811 2.70364 2.21264 1.59859 0.704268 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0 0 0.109234 0.0714753 0.437148 0.913582 1.24854 1.50245 1.20571 1.23379 1.25767 1.35831 1.56994 2.03818 2.52027 2.86013 2.88906 2.78742 2.3397 1.54449 0.657499 0.475663 0.322296 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0 0 0.02484 0 0.139519 0.281053 0.367238 0.26733 0.45591 0.457699 0.68033 1.07908 1.17043 1.30375 1.48663 1.74101 1.99182 2.20382 1.65924 1.64602 1.2718 0.838662 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0 0 0 0 0.107223 0.10521 0.116383 0.301448 0.445406 0.434222 0.392996 0.4552 0.734872 0.971918 1.2271 1.59136 2.02296 1.82172 2.25252 1.79786 1.04398 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.00696449 0.0698108 0.306114 0.638249 0.574245 0.48706 0.505045 0.650838 0.922208 1.03083 1.26737 1.60843 1.94611 2.14032 1.96019 2.09455 1.45005 0.513548 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.119476 0.531783 0.791687 0.683928 0.617155 0.647625 0.915661 1.16325 1.55895 1.70391 1.87787 2.00281 2.0758 1.86225 1.80364 1.01006 0.686135 0.207028 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.320864 0.93655 1.05922 1.02103 0.928237 0.967936 1.41041 1.74845 1.9663 2.11404 2.11844 1.57571 1.33162 0.857894 0.693299 0.448657 0.194235 0.0242473 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.393046 1.09965 1.60758 1.35675 1.64695 1.59205 1.52007 1.51716 1.57844 1.39144 1.05012 0.740933 0.491424 0.425326 0.244853 0.0695524 0.0149523 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.554032 0.882544 1.32872 1.84544 2.28876 2.32176 1.85827 1.31267 0.274212 0.111813 0.259714 0.296329 0.115518 0.0103048 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.347815 0.329892 0.807692 1.69389 2.5928 3.04758 2.67524 1.92107 0.992633 0.0305768 0 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.148353 0.138423 0.233999 0.979146 2.00054 2.88146 3.22387 3.0289 2.0821 1.28299 0.43623 0 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0 0.0721807 0.0504756 0.298574 0.931542 1.71075 2.63278 2.95375 2.96944 2.31449 1.36622 0.299858 0 0 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.0029269 0.0263158 0.0601825 0.0492615 0.119867 0.166048 0.431127 0.79332 1.27371 1.7948 2.09278 2.49575 2.01011 0.98905 0.679764 0.501817 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.0385923 0.132152 0.102091 0.139501 0.204173 0.179747 0.236033 0.235277 0.166877 0.145003 0.242188 0.454453 0.732812 0.996087 1.60188 2.15716 1.84891 1.95408 1.41035 0.901101 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.236445 0.696243 0.510899 0.286746 0.220288 0.3412 0.396412 0.451625 0.469622 0.512363 0.874174 1.23393 1.4006 1.43654 1.89804 2.26362 2.04628 2.33783 1.89397 1.1208 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.403834 0.843024 0.839847 0.726494 0.804957 0.927189 1.05453 1.47207 1.5843 2.06989 2.11453 2.17133 2.07847 2.04159 2.05571 2.1554 1.88123 1.94069 1.40543 0.573527 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.345792 0.418812 0.787919 1.2535 1.97145 2.11531 1.98339 2.046 2.0701 2.09752 2.11892 2.01939 1.80322 1.74538 1.64131 1.14534 1.03367 0.734202 0.629127 0.233853 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.485959 0.138767 0.520503 0.905833 1.59099 1.51878 1.59747 1.58025 1.36107 1.26349 1.02513 0.828682 0.608867 0.583614 0.5606 0.490733 0.379575 0.292602 0.169543 0.0366406 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.082286 0 0 0.32423 0.659481 0.512581 0.552353 0.510085 0.41547 0.353352 0.310295 0.242932 0.200082 0.255137 0.229881 0.141555 0.0389643 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0 0 0 0 0.0934399 0.148254 0.174985 0.203264 0.163449 0.0682934 0.0498783 0.0219235 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174 0.000235174]

The 12th channel of conv2 layer:  name tmp_9646, dtype: VarType.FP32 shape: [14, 14] 	lod: {}
	dim: 14, 14
	layout: NCHW
	dtype: float
	data: [0.000929017 0 0.309475 1.11119 0.805983 0.423284 0.454608 0.371629 0.343919 0.243843 0.172078 0.087311 0 0 0 0 0 1.28896 0.902538 0.373528 0.289768 0.699572 0.872787 0.698695 0.569343 0.385074 0.307633 0.00944422 0.000272553 0.0698131 1.10257 2.11675 1.87117 0.979725 0.84203 0.403135 0.226651 0.382831 1.25325 0.632039 0.0170033 0 0.407463 0.740803 1.84782 3.05002 2.35104 1.1681 1.21093 1.00907 0.961463 1.55646 2.12036 0.960969 0 0 0.368913 0.893702 1.16343 1.2273 0.496713 0 0.568834 0.924744 1.6509 2.91082 2.86438 0.793923 0 0 0.2758 0.485655 0.441895 0.0167996 0 1.37072 2.50922 2.92496 2.94638 2.93562 1.74751 0 0 0 0.0507057 0.0662391 0 0 0.485309 3.00727 3.789 3.38903 2.40032 0.864312 0 0 0 0 0.0686874 0.0670989 0.0868876 0 1.54648 2.88879 2.33173 1.0526 0.984942 0 0 0 0 0 0 0.0354275 0.486811 1.16066 2.06858 2.36519 1.58058 1.37376 1.42412 0 0 0 0 0 0 0 0.965428 1.20054 1.37817 1.81458 1.3883 1.87815 2.00237 0 0 0 0 0 0 0.0538009 1.61561 1.87641 1.69647 2.11846 2.31551 2.52584 2.15006 0.118366 0 0 0 0.0242238 0.401002 1.89597 3.05333 2.50413 2.44726 2.3666 1.93338 1.04305 0.073456 0 0 0 0 0.0242238 0.671001 1.28224 2.02276 1.09289 0.301835 0.0253051 0 0 0 0 0 0 0 0.0193666 0.617558 0.746628 1.01896 0.519439 0.15919 0 0 0 0 0 0 0 0 0.0156319]

The output of last layer: name tmp_9647, dtype: VarType.FP32 shape: [10] 	lod: {}
	dim: 10
	layout: NCHW
	dtype: float
	data: [2.33763e-05 2.27381e-06 0.0174974 0.938395 3.25289e-06 0.00404238 3.40669e-06 0.000206355 0.0395423 0.000284761]
 

Model has been saved.

加入校验或测试，更好评价模型效果

在训练过程中，我们会发现模型在训练样本集上的损失在不断减小。但这是否代表模型在未来的应用场景上依然有效？为了验证模型的有效性，通常将样本集合分成三份，训练集、校验集和测试集。

训练集 ：用于训练模型的参数，即训练过程中主要完成的工作。
校验集 ：用于对模型超参数的选择，比如网络结构的调整、正则化项权重的选择等。
测试集 ：用于模拟模型在应用后的真实效果。因为测试集没有参与任何模型优化或参数训练的工作，所以它对模型来说是完全未知的样本。在不以校验数据优化网络结构或模型超参数时，校验数据和测试数据的效果是类似的，均更真实的反映模型效果。

如下程序读取上一步训练保存的模型参数，读取测试数据集，并测试模型在测试数据集上的效果。

with fluid.dygraph.guard():
    print('start evaluation .......')
    #加载模型参数
    model = MNIST()
    model_state_dict, _ = fluid.load_dygraph('mnist')
    model.load_dict(model_state_dict)

    model.eval()
    eval_loader = load_data('eval')

    acc_set = []
    avg_loss_set = []
    for batch_id, data in enumerate(eval_loader()):
        x_data, y_data = data
        img = fluid.dygraph.to_variable(x_data)
        label = fluid.dygraph.to_variable(y_data)
        prediction, acc = model(img, label)
        loss = fluid.layers.cross_entropy(input=prediction, label=label)
        avg_loss = fluid.layers.mean(loss)
        acc_set.append(float(acc.numpy()))
        avg_loss_set.append(float(avg_loss.numpy()))
    
    #计算多个batch的平均损失和准确率
    acc_val_mean = np.array(acc_set).mean()
    avg_loss_val_mean = np.array(avg_loss_set).mean()

    print('loss={}, acc={}'.format(avg_loss_val_mean, acc_val_mean))

start evaluation .......
loading mnist dataset from ./work/mnist.json.gz ......
loss=0.24862054150551557, acc=0.9312999987602234

从测试的效果来看，模型在测试集上依然有93%的准确率，证明它是有预测效果的。

加入正则化项，避免模型过拟合

过拟合现象

对于样本量有限、但需要使用强大模型的复杂任务，模型很容易出现过拟合的表现，即在训练集上的损失小，在验证集或测试集上的损失较大，如图2 所示。

图2：过拟合现象，训练误差不断降低，但测试误差先降后增

反之，如果模型在训练集和测试集上均损失较大，则称为欠拟合。过拟合表示模型过于敏感，学习到了训练数据中的一些误差，而这些误差并不是真实的泛化规律（可推广到测试集上的规律）。欠拟合表示模型还不够强大，还没有很好的拟合已知的训练样本，更别提测试样本了。因为欠拟合情况容易观察和解决，只要训练loss不够好，就不断使用更强大的模型即可，因此实际中我们更需要处理好过拟合的问题。

导致过拟合原因

造成过拟合的原因是模型过于敏感，而训练数据量太少或其中的噪音太多。

如图3 所示，理想的回归模型是一条坡度较缓的抛物线，欠拟合的模型只拟合出一条直线，显然没有捕捉到真实的规律，但过拟合的模型拟合出存在很多拐点的抛物线，显然是过于敏感，也没有正确表达真实规律。

图3：回归模型的过拟合，理想和欠拟合状态的表现

如图4 所示，理想的分类模型是一条半圆形的曲线，欠拟合用直线作为分类边界，显然没有捕捉到真实的边界，但过拟合的模型拟合出很扭曲的分类边界，虽然对所有的训练数据正确分类，但对一些较为个例的样本所做出的妥协，高概率不是真实的规律。

图4：分类模型的欠拟合，理想和过拟合状态的表现

过拟合的成因与防控

为了更好的理解过拟合的成因，可以参考侦探定位罪犯的案例逻辑，如图5 所示。

图5：侦探定位罪犯与模型假设示意

对于这个案例，假设侦探也会犯错，通过分析发现可能的原因：

情况1：罪犯证据存在错误，依据错误的证据寻找罪犯肯定是缘木求鱼。
情况2：搜索范围太大的同时证据太少，导致符合条件的候选（嫌疑人）太多，无法准确定位罪犯。

那么侦探解决这个问题的方法有两种：或者缩小搜索范围（比如假设该案件只能是熟人作案），或者寻找更多的证据。

归结到深度学习中，假设模型也会犯错，通过分析发现可能的原因：

情况1：训练数据存在噪音，导致模型学到了噪音，而不是真实规律。
情况2：使用强大模型（表示空间大）的同时训练数据太少，导致在训练数据上表现良好的候选假设太多，锁定了一个“虚假正确”的假设。

对于情况1，我们使用数据清洗和修正来解决。对于情况2，我们或者限制模型表示能力，或者收集更多的训练数据。

而清洗训练数据中的错误，或收集更多的训练数据往往是一句“正确的废话”，在任何时候我们都想获得更多更高质量的数据。在实际项目中，更快、更低成本可控制过拟合的方法，只有限制模型的表示能力。

正则化项

为了防止模型过拟合，在没有扩充样本量的可能下，只能降低模型的复杂度，可以通过限制参数的数量或可能取值（参数值尽量小）实现。

具体来说，在模型的优化目标（损失）中人为加入对参数规模的惩罚项。当参数越多或取值越大时，该惩罚项就越大。通过调整惩罚项的权重系数，可以使模型在“尽量减少训练损失”和“保持模型的泛化能力”之间取得平衡。泛化能力表示模型在没有见过的样本上依然有效。正则化项的存在，增加了模型在训练集上的损失。

飞桨支持为所有参数加上统一的正则化项，也支持为特定的参数添加正则化项。前者的实现如下代码所示，仅在优化器中设置regularization参数即可实现。使用参数regularization_coeff调节正则化项的权重，权重越大时，对模型复杂度的惩罚越高。

with fluid.dygraph.guard():
    model = MNIST()
    model.train() 
        
    #各种优化算法均可以加入正则化项，避免过拟合，参数regularization_coeff调节正则化项的权重
    #optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01, regularization=fluid.regularizer.L2Decay(regularization_coeff=0.1),parameter_list=model.parameters()))
    optimizer = fluid.optimizer.AdamOptimizer(learning_rate=0.01, regularization=fluid.regularizer.L2Decay(regularization_coeff=0.1),parameter_list=model.parameters())
    
    EPOCH_NUM = 10
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程，同时拿到模型输出值和分类准确率
            predict, acc = model(image, label)
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了100批次的数据，打印下当前Loss的情况
            if batch_id % 100 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(), acc.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')

epoch: 0, batch: 0, loss is: [2.5837646], acc is [0.07]
epoch: 0, batch: 100, loss is: [0.44785255], acc is [0.86]
epoch: 0, batch: 200, loss is: [0.5621276], acc is [0.79]
epoch: 0, batch: 300, loss is: [0.36024576], acc is [0.9]
epoch: 0, batch: 400, loss is: [0.2137454], acc is [0.97]
epoch: 1, batch: 0, loss is: [0.32742903], acc is [0.94]
epoch: 1, batch: 100, loss is: [0.38002104], acc is [0.9]
epoch: 1, batch: 200, loss is: [0.28988546], acc is [0.91]
epoch: 1, batch: 300, loss is: [0.3161943], acc is [0.92]
epoch: 1, batch: 400, loss is: [0.26775864], acc is [0.92]
epoch: 2, batch: 0, loss is: [0.41065365], acc is [0.88]
epoch: 2, batch: 100, loss is: [0.36259034], acc is [0.93]
epoch: 2, batch: 200, loss is: [0.23258069], acc is [0.97]
epoch: 2, batch: 300, loss is: [0.438219], acc is [0.84]
epoch: 2, batch: 400, loss is: [0.3724376], acc is [0.91]
epoch: 3, batch: 0, loss is: [0.32197174], acc is [0.92]
epoch: 3, batch: 100, loss is: [0.22500922], acc is [0.95]
epoch: 3, batch: 200, loss is: [0.2791322], acc is [0.93]
epoch: 3, batch: 300, loss is: [0.3274293], acc is [0.92]
epoch: 3, batch: 400, loss is: [0.34126315], acc is [0.92]
epoch: 4, batch: 0, loss is: [0.2301678], acc is [0.96]
epoch: 4, batch: 100, loss is: [0.3037812], acc is [0.91]
epoch: 4, batch: 200, loss is: [0.26526916], acc is [0.91]
epoch: 4, batch: 300, loss is: [0.3834384], acc is [0.92]
epoch: 4, batch: 400, loss is: [0.28414917], acc is [0.93]
epoch: 5, batch: 0, loss is: [0.34119365], acc is [0.92]
epoch: 5, batch: 100, loss is: [0.4605037], acc is [0.83]
epoch: 5, batch: 200, loss is: [0.45947126], acc is [0.86]
epoch: 5, batch: 300, loss is: [0.29822484], acc is [0.92]
epoch: 5, batch: 400, loss is: [0.32954705], acc is [0.89]
epoch: 6, batch: 0, loss is: [0.31615752], acc is [0.92]
epoch: 6, batch: 100, loss is: [0.33288595], acc is [0.92]
epoch: 6, batch: 200, loss is: [0.35239428], acc is [0.89]
epoch: 6, batch: 300, loss is: [0.26963434], acc is [0.94]
epoch: 6, batch: 400, loss is: [0.26679957], acc is [0.95]
epoch: 7, batch: 0, loss is: [0.5286848], acc is [0.84]
epoch: 7, batch: 100, loss is: [0.2586086], acc is [0.93]
epoch: 7, batch: 200, loss is: [0.2933053], acc is [0.94]
epoch: 7, batch: 300, loss is: [0.3014267], acc is [0.95]
epoch: 7, batch: 400, loss is: [0.24960919], acc is [0.93]
epoch: 8, batch: 0, loss is: [0.47720584], acc is [0.84]
epoch: 8, batch: 100, loss is: [0.4612022], acc is [0.83]
epoch: 8, batch: 200, loss is: [0.37532455], acc is [0.9]
epoch: 8, batch: 300, loss is: [0.31857097], acc is [0.94]
epoch: 8, batch: 400, loss is: [0.29566267], acc is [0.95]
epoch: 9, batch: 0, loss is: [0.27703482], acc is [0.92]
epoch: 9, batch: 100, loss is: [0.42859527], acc is [0.9]
epoch: 9, batch: 200, loss is: [0.31278244], acc is [0.91]
epoch: 9, batch: 300, loss is: [0.2926207], acc is [0.93]
epoch: 9, batch: 400, loss is: [0.27071095], acc is [0.95]

可视化分析

训练模型时，经常需要观察模型的评价指标，分析模型的优化过程，以确保训练是有效的。可选用这两种工具：Matplotlib库和VisualDL。

Matplotlib库：Matplotlib库是Python中使用的最多的2D图形绘图库，它有一套完全仿照MATLAB的函数形式的绘图接口，使用轻量级的PLT库（Matplotlib）作图是非常简单的。
VisualDL：如果期望使用更加专业的作图工具，可以尝试VisualDL，飞桨可视化分析工具。VisualDL能够有效地展示飞桨在运行过程中的计算图、各种指标变化趋势和数据信息。

使用Matplotlib库绘制损失随训练下降的曲线图

将训练的批次编号作为X轴坐标，该批次的训练损失作为Y轴坐标。

训练开始前，声明两个列表变量存储对应的批次编号(iters=[])和训练损失(losses=[])。

iters=[]
losses=[]
for epoch_id in range(EPOCH_NUM):
	"""start to training"""

随着训练的进行，将iter和losses两个列表填满。

iters=[]
losses=[]
for epoch_id in range(EPOCH_NUM):
	for batch_id, data in enumerate(train_loader()):
        predict, acc = model(image, label)
        loss = fluid.layers.cross_entropy(predict, label)
        avg_loss = fluid.layers.mean(loss)
        # 累计迭代次数和对应的loss
   	iters.append(batch_id + epoch_id*len(list(train_loader()))
	losses.append(avg_loss)

训练结束后，将两份数据以参数形式导入PLT的横纵坐标。

plt.xlabel("iter", fontsize=14)，plt.ylabel("loss", fontsize=14)

最后，调用plt.plot()函数即可完成作图。

plt.plot(iters, losses,color='red',label='train loss')

详细代码如下：

#引入matplotlib库
import matplotlib.pyplot as plt

with fluid.dygraph.guard(place):
    model = MNIST()
    model.train() 
    
    optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01, parameter_list=model.parameters())
    
    EPOCH_NUM = 10
    iter=0
    iters=[]
    losses=[]
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程，同时拿到模型输出值和分类准确率
            predict, acc = model(image, label)

            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了100批次的数据，打印下当前Loss的情况
            if batch_id % 100 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(), acc.numpy()))
                iters.append(iter)
                losses.append(avg_loss.numpy())
                iter = iter + 100

            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')

2020-08-15 17:59:27,562-INFO: font search path ['/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf', '/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/afm', '/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/pdfcorefonts']
2020-08-15 17:59:28,978-INFO: generated new fontManager
epoch: 0, batch: 0, loss is: [2.8164496], acc is [0.17]
epoch: 0, batch: 100, loss is: [0.7803092], acc is [0.76]
epoch: 0, batch: 200, loss is: [0.35576484], acc is [0.91]
epoch: 0, batch: 300, loss is: [0.41823608], acc is [0.88]
epoch: 0, batch: 400, loss is: [0.30141822], acc is [0.93]
epoch: 1, batch: 0, loss is: [0.31177253], acc is [0.89]
epoch: 1, batch: 100, loss is: [0.18210725], acc is [0.93]
epoch: 1, batch: 200, loss is: [0.19340122], acc is [0.94]
epoch: 1, batch: 300, loss is: [0.14683631], acc is [0.95]
epoch: 1, batch: 400, loss is: [0.29668286], acc is [0.89]
epoch: 2, batch: 0, loss is: [0.21461716], acc is [0.92]
epoch: 2, batch: 100, loss is: [0.23927967], acc is [0.93]
epoch: 2, batch: 200, loss is: [0.19158168], acc is [0.93]
epoch: 2, batch: 300, loss is: [0.2452182], acc is [0.92]
epoch: 2, batch: 400, loss is: [0.4062963], acc is [0.91]
epoch: 3, batch: 0, loss is: [0.1661708], acc is [0.94]
epoch: 3, batch: 100, loss is: [0.07780333], acc is [0.98]
epoch: 3, batch: 200, loss is: [0.16298363], acc is [0.95]
epoch: 3, batch: 300, loss is: [0.167503], acc is [0.96]
epoch: 3, batch: 400, loss is: [0.12050762], acc is [0.96]
epoch: 4, batch: 0, loss is: [0.21981199], acc is [0.92]
epoch: 4, batch: 100, loss is: [0.11972132], acc is [0.97]
epoch: 4, batch: 200, loss is: [0.20223652], acc is [0.94]
epoch: 4, batch: 300, loss is: [0.06286619], acc is [0.98]
epoch: 4, batch: 400, loss is: [0.0977192], acc is [0.97]
epoch: 5, batch: 0, loss is: [0.135991], acc is [0.97]
epoch: 5, batch: 100, loss is: [0.13423134], acc is [0.94]
epoch: 5, batch: 200, loss is: [0.09947106], acc is [0.97]
epoch: 5, batch: 300, loss is: [0.26743537], acc is [0.92]
epoch: 5, batch: 400, loss is: [0.08938275], acc is [0.96]
epoch: 6, batch: 0, loss is: [0.09112569], acc is [0.97]
epoch: 6, batch: 100, loss is: [0.06174086], acc is [0.98]
epoch: 6, batch: 200, loss is: [0.10499033], acc is [0.97]
epoch: 6, batch: 300, loss is: [0.07620909], acc is [0.97]
epoch: 6, batch: 400, loss is: [0.12196523], acc is [0.97]
epoch: 7, batch: 0, loss is: [0.09976912], acc is [0.95]
epoch: 7, batch: 100, loss is: [0.09516644], acc is [0.97]
epoch: 7, batch: 200, loss is: [0.17530455], acc is [0.93]
epoch: 7, batch: 300, loss is: [0.08290362], acc is [0.98]
epoch: 7, batch: 400, loss is: [0.0663472], acc is [0.98]
epoch: 8, batch: 0, loss is: [0.02740639], acc is [1.]
epoch: 8, batch: 100, loss is: [0.11678866], acc is [0.97]
epoch: 8, batch: 200, loss is: [0.07043077], acc is [0.97]
epoch: 8, batch: 300, loss is: [0.02732858], acc is [1.]
epoch: 8, batch: 400, loss is: [0.10318086], acc is [0.97]
epoch: 9, batch: 0, loss is: [0.0483377], acc is [0.99]
epoch: 9, batch: 100, loss is: [0.04613008], acc is [0.99]
epoch: 9, batch: 200, loss is: [0.07501897], acc is [0.97]
epoch: 9, batch: 300, loss is: [0.04640705], acc is [0.99]
epoch: 9, batch: 400, loss is: [0.031492], acc is [0.99]

#画出训练过程中Loss的变化曲线
plt.figure()
plt.title("train loss", fontsize=24)
plt.xlabel("iter", fontsize=14)
plt.ylabel("loss", fontsize=14)
plt.plot(iters, losses,color='red',label='train loss') 
plt.grid()
plt.show()

三、【手写数字识别】之恢复训练

模型加载及恢复训练

在之前的章节已经向读者介绍了将训练好的模型保存到磁盘文件的方法。应用程序可以随时加载模型，完成预测任务。但是在日常训练工作中，我们会遇到一些突发情况，导致训练过程主动或被动的中断。如果训练一个模型需要花费几天的时间，中断后从初始状态重新训练是不可接受的。

万幸的是，飞桨支持从上一次保存状态开始继续训练，只要我们随时保存训练过程中的模型状态，就不用从初始状态重新训练。

下面介绍恢复训练的实现方法，依然使用手写数字识别的案例，网络定义的部分保持不变。

import os
import random
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Conv2D, Pool2D, Linear
import numpy as np
from PIL import Image

import gzip
import json

# 定义数据集读取器
def load_data(mode='train'):

    # 数据文件
    datafile = './work/mnist.json.gz'
    print('loading mnist dataset from {} ......'.format(datafile))
    data = json.load(gzip.open(datafile))
    train_set, val_set, eval_set = data

    # 数据集相关参数，图片高度IMG_ROWS, 图片宽度IMG_COLS
    IMG_ROWS = 28
    IMG_COLS = 28

    if mode == 'train':
        imgs = train_set[0]
        labels = train_set[1]
    elif mode == 'valid':
        imgs = val_set[0]
        labels = val_set[1]
    elif mode == 'eval':
        imgs = eval_set[0]
        labels = eval_set[1]

    imgs_length = len(imgs)

    assert len(imgs) == len(labels), \
          "length of train_imgs({}) should be the same as train_labels({})".format(
                  len(imgs), len(labels))
                  
    index_list = list(range(imgs_length))

    # 读入数据时用到的batchsize
    BATCHSIZE = 100

    # 定义数据生成器
    def data_generator():
        if mode == 'train':
            random.shuffle(index_list)
        imgs_list = []
        labels_list = []
        for i in index_list:
            img = np.reshape(imgs[i], [1, IMG_ROWS, IMG_COLS]).astype('float32')
            label = np.reshape(labels[i], [1]).astype('int64')
            imgs_list.append(img) 
            labels_list.append(label)
            if len(imgs_list) == BATCHSIZE:
                yield np.array(imgs_list), np.array(labels_list)
                imgs_list = []
                labels_list = []

        # 如果剩余数据的数目小于BATCHSIZE，
        # 则剩余数据一起构成一个大小为len(imgs_list)的mini-batch
        if len(imgs_list) > 0:
            yield np.array(imgs_list), np.array(labels_list)

    return data_generator

#调用加载数据的函数
train_loader = load_data('train')

# 定义模型结构
class MNIST(fluid.dygraph.Layer):
     def __init__(self):
         super(MNIST, self).__init__()
         # 定义一个卷积层，使用relu激活函数
         self.conv1 = Conv2D(num_channels=1, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool1 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个卷积层，使用relu激活函数
         self.conv2 = Conv2D(num_channels=20, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
         # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
         self.pool2 = Pool2D(pool_size=2, pool_stride=2, pool_type='max')
         # 定义一个全连接层，输出节点数为10 
         self.fc = Linear(input_dim=980, output_dim=10, act='softmax')
    # 定义网络的前向计算过程
     def forward(self, inputs, label):
         x = self.conv1(inputs)
         x = self.pool1(x)
         x = self.conv2(x)
         x = self.pool2(x)
         x = fluid.layers.reshape(x, [x.shape[0], 980])
         x = self.fc(x)
         if label is not None:
             acc = fluid.layers.accuracy(input=x, label=label)
             return x, acc
         else:
             return x

loading mnist dataset from ./work/mnist.json.gz ......

在开始介绍使用飞桨恢复训练前，先正常训练一个模型，优化器使用Adam，使用动态变化的学习率，学习率从0.01衰减到0.001。每训练一轮后保存一次模型，之后将采用其中某一轮的模型参数进行恢复训练，验证一次性训练和中断再恢复训练的模型表现是否一致（训练loss的变化）。

注意进行恢复训练的程序不仅要保存模型参数，还要保存优化器参数。这是因为某些优化器含有一些随着训练过程变换的参数，例如Adam, AdaGrad等优化器采用可变学习率的策略，随着训练进行会逐渐减少学习率。这些优化器的参数对于恢复训练至关重要。

为了演示这个特性,下面训练程序使用Adam优化器，学习率以多项式曲线从0.01衰减到0.001（polynomial decay）。

lr = fluid.dygraph.PolynomialDecay(0.01, total_steps, 0.001)

learning_rate：初始学习率
decay_steps：衰减步数
end_learning_rate：最终学习率
power：多项式的幂，默认值为1.0
cycle：下降后是否重新上升，polynomial decay的变化曲线下图所示。

#在使用GPU机器时，可以将use_gpu变量设置成True
use_gpu = False
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard(place):
    model = MNIST()
    model.train() 
    
    EPOCH_NUM = 5
    BATCH_SIZE = 100
    # 定义学习率，并加载优化器参数到模型中
    total_steps = (int(60000//BATCH_SIZE) + 1) * EPOCH_NUM
    lr = fluid.dygraph.PolynomialDecay(0.01, total_steps, 0.001)
    
    # 使用Adam优化器
    optimizer = fluid.optimizer.AdamOptimizer(learning_rate=lr, parameter_list=model.parameters())
    
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程，同时拿到模型输出值和分类准确率
            predict, acc = model(image, label)
            avg_acc = fluid.layers.mean(acc)
            
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了200批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(),avg_acc.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()
            
        # 保存模型参数和优化器的参数
        fluid.save_dygraph(model.state_dict(), './checkpoint/mnist_epoch{}'.format(epoch_id))
        fluid.save_dygraph(optimizer.state_dict(), './checkpoint/mnist_epoch{}'.format(epoch_id))

epoch: 0, batch: 0, loss is: [2.3616602], acc is [0.11]
epoch: 0, batch: 200, loss is: [0.04291746], acc is [0.99]
epoch: 0, batch: 400, loss is: [0.0101074], acc is [1.]
epoch: 1, batch: 0, loss is: [0.03018786], acc is [0.99]
epoch: 1, batch: 200, loss is: [0.00359862], acc is [1.]
epoch: 1, batch: 400, loss is: [0.03399187], acc is [0.98]
epoch: 2, batch: 0, loss is: [0.00359349], acc is [1.]
epoch: 2, batch: 200, loss is: [0.00451456], acc is [1.]
epoch: 2, batch: 400, loss is: [0.00253675], acc is [1.]
epoch: 3, batch: 0, loss is: [0.01382196], acc is [1.]
epoch: 3, batch: 200, loss is: [0.00392301], acc is [1.]
epoch: 3, batch: 400, loss is: [0.01524211], acc is [0.99]
epoch: 4, batch: 0, loss is: [0.00149431], acc is [1.]
epoch: 4, batch: 200, loss is: [0.00273003], acc is [1.]
epoch: 4, batch: 400, loss is: [0.01873435], acc is [0.99]

恢复训练

在上述训练代码中，我们训练了五轮（epoch）。在每轮结束时，均保存了模型参数和优化器相关的参数。

使用model.state_dict()获取模型参数。
使用optimizer.state_dict()获取优化器和学习率相关的参数。
调用fluid.save_dygraph()将参数保存到本地。

比如第一轮训练保存的文件是mnist_epoch0.pdparams，mnist_epoch0.pdopt，分别存储了模型参数和优化器参数。

当加载模型时，如果模型参数文件和优化器参数文件是相同的，我们可以使用load_dygraph同时加载这两个文件，如下代码所示。

params_dict, opt_dict = fluid.load_dygraph(params_path)

如果模型参数文件和优化器参数文件的名字不同，需要调用两次load_dygraph分别获得模型参数和优化器参数。

如何判断模型是否准确的恢复训练呢？

理想的恢复训练是模型状态回到训练中断的时刻，恢复训练之后的梯度更新走向是和恢复训练前的梯度走向完全相同的。基于此，我们可以通过恢复训练后的损失变化，判断上述方法是否能准确的恢复训练。即从epoch 0结束时保存的模型参数和优化器状态恢复训练，校验其后训练的损失变化（epoch 1）是否和不中断时的训练完全一致。

说明：

恢复训练有如下两个要点：

保存模型时同时保存模型参数和优化器参数。
恢复参数时同时恢复模型参数和优化器参数。

下面的代码将展示恢复训练的过程，并验证恢复训练是否成功。其中，我们重新定义一个train_again()训练函数，加载模型参数并从第一个epoch开始训练，以便读者可以校验恢复训练后的损失变化。

params_path = "./checkpoint/mnist_epoch0"        
#在使用GPU机器时，可以将use_gpu变量设置成True
use_gpu = False
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard(place):
    # 加载模型参数到模型中
    params_dict, opt_dict = fluid.load_dygraph(params_path)
    model = MNIST()
    model.load_dict(params_dict)
    
    EPOCH_NUM = 5
    BATCH_SIZE = 100
    # 定义学习率，并加载优化器参数到模型中
    total_steps = (int(60000//BATCH_SIZE) + 1) * EPOCH_NUM
    lr = fluid.dygraph.PolynomialDecay(0.01, total_steps, 0.001)
    
    # 使用Adam优化器
    optimizer = fluid.optimizer.AdamOptimizer(learning_rate=lr, parameter_list=model.parameters())
    optimizer.set_dict(opt_dict)

    for epoch_id in range(1, EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程，同时拿到模型输出值和分类准确率
            predict, acc = model(image, label)
            avg_acc = fluid.layers.mean(acc)
            
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.cross_entropy(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了200批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(),avg_acc.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

epoch: 1, batch: 0, loss is: [0.03708917], acc is [0.98]
epoch: 1, batch: 200, loss is: [0.08957174], acc is [0.96]
epoch: 1, batch: 400, loss is: [0.02408227], acc is [0.99]
epoch: 2, batch: 0, loss is: [0.07788698], acc is [0.99]
epoch: 2, batch: 200, loss is: [0.07012209], acc is [0.97]
epoch: 2, batch: 400, loss is: [0.0098958], acc is [1.]
epoch: 3, batch: 0, loss is: [0.00520889], acc is [1.]
epoch: 3, batch: 200, loss is: [0.00995], acc is [0.99]
epoch: 3, batch: 400, loss is: [0.00122163], acc is [1.]
epoch: 4, batch: 0, loss is: [0.00160433], acc is [1.]
epoch: 4, batch: 200, loss is: [0.00131854], acc is [1.]
epoch: 4, batch: 400, loss is: [0.01611667], acc is [0.99]

从恢复训练的损失变化来看，加载模型参数继续训练的损失函数值和正常训练损失函数值是完全一致的，可见使用飞桨实现恢复训练是极其简单的。

你可能感兴趣的:(飞浆Paddle学习)

Linux下基于C++11的socket网络编程（基础版本）吃拉面的小波 C++网络编程 linux 网络 c++
第一：socket的基础知识略，网上有很多这样的知识，我觉得他们应该讲的比我好。我是跟着韩国人尹圣雨写的《TCP/IP网络编程》这本书学的。第二：使用的线程库C++11std::thread在经过自己简单的封装第三：声明因为我也是初学，可能写的不好，封装的也不好，我写这篇文章，只是希望帮助很基础的初学者，慢慢的接触socket，也给自己记录一下学习的经过。所以，如果错误的，或者不好的地方，望各位多
Ubuntu下安装Moodle平台 swy520 ubuntu Moodle ubuntu Moodle
一前言Moodle是一个开源课程管理系统（CMS），也被称为学习管理系统（LMS）或虚拟学习环境（VLE），它通常用来播放符合SCORM标准的课件，但功能远不止课程管理，作业模块等功能。这里主要介绍moodle的安装方法。二安装准备Moodle通常在Linux操作系统上，基于Apache，PostgreSQL/MySQL/MariaDB和PHP进行开发。为了平台的稳定性，我们选择Linux操作系统
FlatBuffers（概念、原理及优势、在TS中的使用）前端杂货铺 TodoList 100个小知识 FlatBuffers JSON 序列化反序列化
个人简介个人主页：前端杂货铺‍♂️学习方向：主攻前端方向，正逐渐往全干发展个人状态：研发工程师，现效力于中国工业软件事业人生格言：积跬步至千里，积小流成江海推荐学习：前端面试宝典100个小功能Vue2Vue3Vue2/3项目实战Node.js实战Three.js个人推广：每篇文章最下方都有加入方式，旨在交流学习&资源分享，快加入进来吧文章目录介绍在Vue中使用FlatBuffersFlatBuff
ros学习之路径规划许卿768503 学习
一、全局路径规划中的地图1、栅格地图（GridMap）2、概率图（CostMap）3、特征地图（FeatureMap4、拓扑地图（TopologicalMap）二、全局路径规划算法1、Dijkstra算法2、最佳路径优先搜索算法（BFS）3、A*搜索算法双向A*搜索算法重复A*搜索算法AnytimeRepairingA*(ARA*)搜索算法实时学习A*搜索（LRTA*）算法实时适应性A*搜索（RT
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
React系统学习之路莲华君 react.js 学习前端
React系统学习之路学习目录第1章：React入门介绍React的基本概念和应用场景安装Node.js和npm创建第一个React应用React的JSX语法组件的基本结构和生命周期第2章：组件与状态管理函数组件与类组件的区别状态（State）和属性（Props）的使用受控组件与非受控组件高阶组件（HOC）的概念和实现使用ContextAPI进行跨层级状态传递第3章：ReactHooksuseSt
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
PCIe学习笔记（26） IC纯小白学习笔记网络
ErrorForwarding（错误转发）错误转发(也称为数据中毒)，通过设置EP位表示。下面是一些使用错误转发的例子:•例#1:从主存读取遇到不可纠正的错误•例#2:PCI写到主存的奇偶校验错误•例#3:内部数据缓冲区或缓存上的数据完整性错误错误转发使用模型•错误转发仅用于读取完成数据，AtomicOp完成数据，AtomicOp请求数据或写数据，从不用于错误在“头”(请求阶段，地址/命令等)的情
SapphireRapids NVMe Aggregate Performance with灵活IO测试--学习笔记（二）向阳生活学习笔记网络
4.主机系统配置由于NVMe控制器使用队列和数据缓冲区，这些队列和数据缓冲区可以托管在主机系统内存空间的任何位置，因此假设主机系统具有足够的内存容量和内存带宽来同时处理多个NVMe访问，以避免受到内存带宽限制。主机系统是Sapphire-Rapid2S系统，每个插槽上配置了8个DDR564GB,1DPC,运行在每个插槽上的速度为4800MTS（例如，共1TB内存容量）。4.1根端口的硬盘数量Sap
equine在神经网络中建立量化不确定性 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载众所周知，用于监督标记问题的深度神经网络（DNN）可以在各种学习任务中产生准确的结果。但是，当准确性是唯一目标时，DNN经常会做出过于自信的预测，并且无论测试数据是否属于任何已知标签，它们也总是进行标签预测。EQUINEwascreatedtosimplifytwokindsofuncertaintyquantificationforsupervisedlabel
PMP备考神器:免费刷题小程序推荐才聚PMP 人工智能职场和发展
【PMP考试通】是一款专门为备考PMP的免费刷题小程序。【PMP考试通】涵盖了考试中的所有考点，能帮你顺利通过PMP考试。还有最新的考试咨讯提供给大家，随时了解考试的动态，考试更安心。有两种练习模式，可以实现不同的练习需求。1、考试模式:完全模拟考试，做完之后计算得分，并可以查看相应解析2、练习模式:练习与学习，遇到不能解答的题目时，可以直接查看解析，学习当前知识点3、做题类型:章节练习、每日一练
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
UBOOT学习笔记（六）：UBOOT启动--CPU架构及板级初始化阶段 ZH_2025 uboot &linux启动篇 linux arm
3.1、_mainENTRY(_main)#ifdefined(CONFIG_TPL_BUILD)&&defined(CONFIG_TPL_NEEDS_SEPARATE_STACK)ldrr0,=(CONFIG_TPL_STACK)/*TPL（三级引导）使用独立栈*/#elifdefined(CONFIG_SPL_BUILD)&&defined(CONFIG_SPL_STACK)ldrr0,=(C
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
鸿蒙HarmonyOS实战开发：实现表情聊天场景案例你我皆是牛马星人 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos 华为 android 鸿蒙 ui 前端
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）介绍本示例主要介绍如何在聊天信息中加入表情图片。通过变量控制表情键盘的显示与
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
Linux运维需要学多久？学习方式有哪些？老男孩IT教育 linux 运维
Linux运维工程师是一个融合多学科的综合性技术岗位，除了掌握相关技术之外，还需要具备沟通、销售、管理等非技术能力，因此也给运维工程师提供了非常广阔的发展空间。那么Linux运维工程师要学多久?以下是详细的内容介绍。Linux运维工程师要学多久?Linux运维工程师学习周期需结合学习方式来决定，不同的学习方式，周期是不同的。现在学习Linux运维技术分为两种情况。一种是自学，如果选择自学的话，学习
linux学习第五周运维小杨 linux 学习运维
目录1、总结rocky系统的启动流程，grub工作流程1.1系统启动整体流程（基于BIOS/UEFI）1.2硬件初始化阶段1.2.1BIOS（传统模式）1.2.2UEFI（新模式）1.3引导加载程序（GRUB2）阶段1.4内核加载与初始化阶段1.5用户空间初始化（systemd阶段）2、总结内核设计流派及特点。3、总结systemd服务配置文件4、总结DNS域名三级结构，DNS服务工作原理，涉及递
第二十五节：Linux 运维职业规划与学习路径指南厚衣服_3 Linux基本操作详解运维 linux 学习
第二十五节：Linux运维职业规划与学习路径指南随着云计算、容器化、自动化运维的快速发展，Linux运维工程师已经成为技术岗位中的重要角色之一。要想在运维领域长期发展，不仅要掌握扎实的基础技能，更要有清晰的职业规划和学习路径。一、Linux运维职业方向概览职业方向技术关键词基础运维工程师Linux、Shell、网络、服务部署、安全配置自动化运维/DevOpsAnsible、Docker、Jenki
Linux运维学习路线沉默的八哥 Linux 运维 linux 学习
以下是一个Linux运维详细学习路线：一、Linux基础入门（第1-2个月）操作系统安装与基本概念学习Linux系统的安装，包括常见发行版（如Ubuntu、CentOS、Debian等）的选择。了解安装过程中的分区设置（如根分区、交换分区）、文件系统类型（如ext4、xfs）的选择及其对系统性能的影响。熟悉Linux的基本概念，如内核、shell、文件系统层次结构（FHS）标准。掌握文件系统的目录
职星学院企业培训系统：打造高效、个性化的在线学习平台 JAVA_staredu 学习
在当今快节奏的商业环境中，企业竞争日益激烈，员工培训成为提升企业核心竞争力的关键因素之一。为了满足企业对员工培训的需求，职星学院企业培训系统应运而生。该系统旨在为企业提供一个高效、便捷、个性化的在线学习平台，帮助员工不断提升专业技能和综合素质，从而推动企业的持续发展。系统概述职星学院企业培训系统是一款集知识库管理、培训计划制定、在线考试与测评、学习进度跟踪等功能于一体的综合性在线培训平台。系统采用
数据结构学习——KMP算法 uwvwko 算法数据结构学习 c++kmp
//KMP算法#include#include#include#includeusingnamespacestd;//next数组值的推导voidgetNext(string&str,vector&next){intstrlong=str.size();//next数组的0位为0next[0]=0;//i为当前字符的位置，从1位（第2个开始）inti=1;//length为当前字符之前的最长匹配子
数据结构学习——树的储存结构 uwvwko 数据库学习算法树
三种表示法：双亲表示法，孩子表示法，孩子兄弟表示法双亲表示法//树结构——双亲表示法#includeusingnamespacestd;structTree{stringdata;Tree*parent;//双亲指针Tree*firstchild;//第一个孩子指针Tree*nextsibling;//下一个兄弟指针};voidCreateTree(Tree*&root,stringdata,Tr
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
大模型之提示词工程十指令——结合认知科学与高效学习法的AI协作指南 SEVEN-YEARS 学习人工智能
1.费曼学习法：用“教学”倒逼模型理解复杂概念原理：通过模拟教学场景，迫使模型深入理解知识本质。指令示例：“请用‘小学数学老师’的身份，向孩子解释区块链的基本原理。”输出：“区块链就像一个透明的记账本，每个人都可以看到上面的记录。比如你和同学一起买零食，大家轮流在本子上记录谁买了什么，这样没有人能偷偷修改记录。”应用场景：技术概念简化、跨领域知识迁移、科普内容生成。2.帕累托法则：聚焦关键20%的
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

（笔记）第二章：一个案例吃透深度学习（下）

目录

一、【手写数字识别】之资源配置

概述

前提条件

单GPU训练

分布式训练

模型并行

数据并行

PRC通信方式

NCCL2通信方式（Collective）

二、【手写数字识别】之训练调试与优化

概述

计算模型的分类准确率

检查模型训练过程，识别潜在训练问题

加入校验或测试，更好评价模型效果

加入正则化项，避免模型过拟合

过拟合现象

导致过拟合原因

过拟合的成因与防控

正则化项

可视化分析

使用Matplotlib库绘制损失随训练下降的曲线图

三、【手写数字识别】之恢复训练

模型加载及恢复训练

恢复训练

你可能感兴趣的:(飞浆Paddle学习)