迁移学习技巧以及如何更好的finetune 模型

最近在finetune model的时候遇到了点问题,开贴记录一下。也算填自己踩过的坑。
文章参考翻译自cs231n
其实我们常用的直接finetune pre-trained model就属于迁移学习(Transfer Learning)的一种。因为我们很少在训练一个新任务时从零开始训练,一个是由于训练时间限制,另一个时训练样本过大存储空间也不一定允许,如ImageNet数据经济120万张图片,1000个类别,是很麻烦的从头开始训练(train from scratch)。因此我们的迁移学习通常有三种情况:
1:把预训练的CNN模型当做特征提取器:
得到在ImageNet数据库上pre-trained后的CNN模型,去掉最后一层全连接层(因为最后一层的输出是1000个类别的概率,在自己的问题上不适用,因为一般你的类别也并不是1000类),然后将剩下的全部网络结构当做一个特征提取器,原来的网络最后一层的输出就是你的特征,然后将该特征输入一个SVM分类器或者softmax分类器就可以快速实现你自己的分类任务。
2:finetune model
这也是最常用的,因为一般我们并不会简单的把模型像1一样当做特征提取器使用,而是让模型去fit我们的训练数据,使得性能更好。因此我们除了像第一步里面一样去掉最后一个FC层伊以外,在网络训练过程中还要更新权重,进行BP传导(方法见下文)。最简单粗暴的就是对修改后的全部网络层进行权重更新(当自己的数据库较大时),但是当我们本身任务的数据库较小时,为了避免过拟合,我们需要对网络的前几层固定参数(不更新权重),而只更新网络结构的后面几层。这是因为网络的前几层得到的特征是比较基础local的特征,基本适用于全部任务(边缘,角点特征),而网络层数越高的层,和数据库全局信息联系越紧密,(网络越靠后,信息越global,越靠前,越local,local的信息是多数情况共享的,而global的信息和原图紧密相关)。

下面根据你本身数据库的特点有几种情况可参考:
1:新的数据库较小,并且和pre-trained model所使用的训练数据库相似度较高:
由于数据库较小,在进行finetune存在overfit的风险,又由于数据库和原始数据库相似度较高,因此二者不论是local feature还是global feature都比较相近,所以此时最佳的方法是把CNN网络当做特征提取器然后训练一个分类器进行分类
2:新的数据库较大,并且和pre-trained model所使用的训练数据库相似度较高:
很明显,此时我们不用担心overfit,因此对全部网络结构进行finetune是较好的。
3:新的数据库较小,并且和pre-trained model所使用的训练数据库差异很大:
由于数据库较小,不适合进行finetune,由于数据库差异大,应该在单独训练网络结构中较高的层,前面几层local的就不用训练了,直接固定权值。在实际中,这种问题下较好的解决方案一般是从网络的某层开始取出特征,然后训练SVM分类器。
3:新的数据库较大,并且和pre-trained model所使用的训练数据库差异很大:
本来由于数据库较大,可以从头开始训练的,但是在实际中更偏向于训练整个pre-trained model的网络。

其他建议:
1:不要随意移除原始结构中的层或者更改其参数,因为网络结构传导是一层接着一层的,你改了某层的参数,在往后传导的过程中就可能得不到预想的结果。
2:Learning rates学习率:不应该设置的太大,因为我们finetune的前提就是这个模型的权重很多是有意义的,但是你学习率过大的话就会存在更新过快,破坏了原来好的权重信息,一般在finetune时学习率一般设置在1e-5,从头开始训练的话可以设置的大一点:1e-3.

翻译完成,接下来讲一下在tensorflow和caffe中如何实现只更新网络中的某些层的权重,而保持某些层参数固定:

A:caffe中:一个较好的参考
不更新权重的意思就是改层的学习率始终为0,因此在网络中将对应的参数设置为0:

在layer里面加上param { lr_mult: 0 }就可以了,比如全连接层里面:
layer {
    type: "InnerProduct"
    param { # 对应第1个参数blob的配置,也就是全连接层的参数矩阵W的配置
         lr_mult: 0 # 学习率为0,其他参数可以看caffe.proto里面的ParamSpec这个类型
    }
    param { # 对应第2个参数blob的配置,也就是全连接层的偏置项b的配置
        lr_mult: 0 # 学习率为0
    }
}

B:tensorflow中

    train_params =network.all_params
    new_train_params=[]
    for ij in train_params:
        print ij
    new_train_params=train_params[3:]
    for kk in new_train_params:
        print kk
#    exit()
    optimizer = tf.train.AdamOptimizer(learning_rate=model_config['learning_rate']).minimize(cost,var_list=new_train_params)

在写优化函数时,var_list的含义就是需要BP更新权重的层,格式是list,可以根据网络结构自己指定,

new_train_params=train_params[3:]#指定只前三层不更新,只更新后面的层

参加比赛学到的深度学习调参trick:
1:多类问题考虑到样本不平衡问题
trian test split时候采用各个类别内部按比例分割的思路(StratifiedShuffleSplit)
2:数据预处理,
2.1:清理重复数据,使用dHash:差异值哈希。精确度较高,且速度也非常快来判断,参考博客这里写链接内容
后面数据增广,测试数据增广方案差不多前提下,这一步数据清洗能够提高1-2个百分点,很重要!!!
2.2:数据增强不只是有faster rcnn一种截取方式,还有(FCIS) https://github.com/msracver/FCIS (CAM) http://cnnlocalization.csail.mit.edu/

你可能感兴趣的:(tensorflow,caffe,Machine,Learning,迁移,finetune,模型)