cs231以及迁移学习

Normalization的原因cs231以及迁移学习_第1张图片

以这个2元分类为例,不normalization的话,loss非常敏感,分类器稍微改变一下,对loss的影响很大。Normalization后问题得到解决。

cs231以及迁移学习_第2张图片
在CNN中我们希望每层都normalization,可以用batch normalization

  • learning rate是第一个需要调整的超参数,但当他调好之后再调其他参数 可能对learning rate的调整产生影响

Problems with SGD

  • 容易出现震荡
  • 容易停留在局部最小值

SGD+Momentum

velocity初始值是0

AdaGrad

cs231以及迁移学习_第3张图片
逐参数调节学习率,让梯度大的项学习率慢慢变小,梯度小的则相反。这种方法在CONVEX的形状上有很好的应用,因为是其梯度变化的特战。但其他情况,就可能在saddle point停止运动。1e-7避免除数为0。

RMSprop

Adam

前几种的组合

cs231以及迁移学习_第4张图片

几个正则化方法

cs231以及迁移学习_第5张图片

随机失活(dropout):
可以看做只用部分特征去判断一种物体,避免过分依赖某一特征。
At test time, multiply by dropout probability 或在training time除以dropout probability。
(这里的处理方式和batch normalization相似)

batch normalization是最常用的
cs231以及迁移学习_第6张图片

cs231以及迁移学习_第7张图片
Different data from ImageNet

迁移学习

迁移学习(Transfer Learning)的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。把已训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习。

为什么要迁移学习?

(1)站在巨人的肩膀上 :前人花很大精力训练出来的模型在大概率上会比你自己从零开始搭的模型要强悍,没有必要重复造轮子。

(2)训练成本可以很低 :如果采用导出特征向量的方法进行迁移学习,后期的训练成本非常低,用CPU都完全无压力,没有深度学习机器也可以做。

(3)适用于小数据集 :对于数据集本身很小(几千张图片)的情况,从头开始训练具有几千万参数的大型神经网络是不现实的,因为越大的模型对数据量的要求越大,过拟合无法避免。这时候如果还想用上大型神经网络的超强特征提取能力,只能靠迁移学习。

迁移学习有几种方式

(1)Transfer Learning :冻结预训练模型的全部卷积层,只训练自己定制的全连接层。

(2)Extract Feature Vector :先计算出预训练模型的卷积层对所有训练和测试数据的特征向量,然后抛开预训练模型,只训练自己定制的简配版全连接网络。

(3)Fine-tune :冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层。

  • 数据集1
    数据量少,但数据相似度非常高
    在这种情况下,我们所做的只是修改最后几层或最终的softmax图层的输出类别。
    数据集2

  • 数据量少,数据相似度低
    在这种情况下,我们可以冻结预训练模型的初始层(比如k层),并再次训练剩余的(n-k)层。由于新数据集的相似度较低,因此根据新数据集对较高层进行重新训练具有重要意义。
    数据集3

  • 数据量大,数据相似度低
    在这种情况下,由于我们有一个大的数据集,我们的神经网络训练将会很有效。但是,由于我们的数据与用于训练我们的预训练模型的数据相比有很大不同。使用预训练模型进行的预测不会有效。因此,最好根据你的数据从头开始训练神经网络(Training from scatch)。
    数据集4

  • 数据量大,数据相似度高
    这是理想情况。在这种情况下,预训练模型应该是最有效的。使用模型的最好方法是保留模型的体系结构和模型的初始权重。然后,我们可以使用在预先训练的模型中的权重来重新训练该模型。

转自:
http://blog.itpub.net/29829936/viewspace-2641919/

你可能感兴趣的:(cs231n)