Caffe学习笔记7:模型微调

一般来说我们通常都是需要在一些特定的领域里来识别分类,比如服装类、标志等等,但是深度学习中数据集的准备一直是最令人头疼的一件事。我们很难拿到大量的数据。在这种情况下重新训练的一个新的网络是比较复杂,且参数也不好调整,因此数据集为图像时,通过fine-tuning微调是一个比较理想的选择。Fine-tuning的整体思路就是,ImageNet是一个千万级的图像数据库,现已经在ImageNet上训练了一个很牛的网络,我们可以把pretrain的网络拿过来,然后只重新训练最后几层。意思就是以前需要分成1000类,现在只需要识别是狗还是猫,或者衣服是上衣还是裤子。故就只需要把最后一层softmax从40961000的分类器变成40922的分类器。微调网络需要一个已初始化的模型参数文件,这里不同于用某某网络训练自己的数据集方法。后者在训练过程中,这些参数都被随机的初始化。而fine-tuning是在已训练好的参数的基础上,根据我们的分类识别任务进行特定的微调。总而言之,fine-tuning这种策略目前在应用中是非常好使的。接下来介绍一下fine-tuning流程以及简单介绍一下该如何调参。

fine-tuning流程

对网络进行微调的整个流程可以分为以下几步:

  • 准备数据集(包括训练数据和测试数据)
  • 计算数据集的均值文件,因为某个特定领域的图像均值文件会跟ImageNet上的数据均值不太一样
  • 修改网络最后一层的输出类别数,以及最后一层网络的名称,加大最后一层的参数学习速率
  • 调整solver的配置参数
  • 加载预训练模型的参数,启动训练
1. 准备数据集(建立与下载)

前面几篇笔记已经有所介绍了,就是下载数据然后转成LMDB格式。

2. 计算数据集的均值文件
3. 调整网络参数

参照caffe上的例程,可以使用CaffeNet,复制caffenet的train_val.prototxt到自己的目录下,或者复制官网给出的例子——Fine-tuning CaffeNet for Style Recognition on “Flickr Style” Data,下载完之后,模型会放在models的finetune_flickr_style中,可以参考里面的那些文件,适当修改一些地方即可。个人建议:不管训练什么模型,最好自己新建一个目录,然后把所有需要的文件拷贝到该目录下,然后根据自己的需求更改。本文是在examples/下新建了一个blog_img目录。该文件需要修改的地方如下:train_val.prototxt(1)修改source和meanfile

name: "BlogNet" #这里的名字可修改可不修改,根据自己的意愿
layer {
  name: "data"
  type: "ImageData"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    mirror: true
    crop_size: 227
    mean_file: "data/blog_img/train_mean.binaryproto" #这里是第二步求得的均值文件所在的地方
  }
  image_data_param {
    source: "data/blog_img/train_lmdb" #训练集所在的地方
    batch_size: 512       #可根据自己内存情况调整,最好是8的倍数
    new_height: 256 #在finetuning的时候,新问题的图像大小不同于pretraining的图像大小时,只能缩放到同样的大小
    new_width: 256
  }
}
layer {
  name: "data"
  type: "ImageData"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    mirror: false
    crop_size: 227
    mean_file: "data/blog_img/test_mean.binaryproto "
  }
  image_data_param {
    source: "data/blog_img/test_lmdb" #测试集所在的地方
    batch_size: 128
    new_height: 256
    new_width: 256
  }
}

(2)修改输出层fc8

layer {
  name: "fc8_bogimg"  #修改名字,这样预训练模型赋值时会因为名字不匹配从而重新训练,也就达到了适应新任务的目的
  type: "InnerProduct"
  bottom: "fc7"
  top: "fc8_blogimg"
  # lr_mult is set to higher than for other layers, because this layer is starting from random while the others are already trained
  param {
    lr_mult: 10  #调整学习率,因为最后一层是重新学习的,因此需要比其他层更快的学习速率,因此将weight和bias都增加10倍,其他层为1或2,如果
    decay_mult: 1  #数据集过小,可以将其他层的学习率置为0,只训练最后一层
  }
  param {
    lr_mult: 20 #上同
    decay_mult: 0
  }
  inner_product_param {
    num_output: 5 #修改为你想识别的类别数
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
      value: 0
    }
  }
}
layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "fc8_blogimg" #别忘了还有这里的名字(fc8层的名字)
  bottom: "label"
  top: "accuracy"
  include {
    phase: TEST
  }
}
layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "fc8_blogimg" #别忘了还有这里的名字(fc8层的名字)

  bottom: "label"
  top: "loss"
}

solver.prototxt
微调,顾名思义微微调整,所以一般来说,相比较于用某网络结构直接训练自己的数据集来说,学习速率、步长、迭代次数都减小。修改地方如下:

net: "examples/blog_img/train_val.prototxt"
test_iter: 100  
test_interval: 1000
# lr for fine-tuning should be lower than when starting from scratch
base_lr: 0.001  
lr_policy: "step"
gamma: 0.1
# stepsize should also be lower, as we're closer to being done
stepsize: 5000 
display: 100
max_iter: 10000 
momentum: 0.9
weight_decay: 0.0005
snapshot: 5000
snapshot_prefix: "examples/blog_img/img_type"
# uncomment the following to default to CPU mode solving
solver_mode: GPU
  1. 开始训练
./build/tools/caffe train -solver examples/blog_img/solver.prototxt -weights models/bvlc_reference_caffenet /bvlc_reference_caffenet .caffemodel -gpu 0

预测效果


Caffe学习笔记7:模型微调_第1张图片
1.png

你可能感兴趣的:(Caffe学习笔记7:模型微调)