curriculum learning

如有错误,欢迎指正
本文学习过程中的归纳总结
如有侵权,请私信本人
参考链接:https://www.dazhuanlan.com/2019/11/21/5dd617335da12/
https://blog.csdn.net/qq_25011449/article/details/82914803

关于transfer Learning和fine-tuning的区别就是,transfer Learning是一种理念(concept),而fine-tuning则是其实现的具体方法。
而Curriculum learning和transfer learning的区别主要是在于要学习的domain的差异。Curriculum Learning关注如何将一个较难的任务根据有难到易的标准分为不同阶段来学习,即通过先学习简单课程为后续学习打下基础,以使模型不再那么难收敛。可以类比于,学生为了能理解高等数学,要先从初级的数学知识开始学起,难度逐步增加。而transfer learning侧重点则是在于如何将在一个domain上学习到的模型迁移(transfer)到新的domain上去。可以类比于,学生学习了数学知识,再想办法将其应用到物理学体系中。

curriculum learning(课程学习)是从简单的子任务到复杂任务的学习过程(在机器学习里就是容易学习的样本和不容易学习的样本)。

Contributions:

  1. 作者通过有关视觉和语言的任务证明了很简单的多阶段课程学习的策略就能够实现泛化能力的提高和收敛速度的加快
  2. 另外解释了课程学习为什么有这些优势。
  3. 实验表明课程学习的作用类似于某种正则项

课程学习的思想是根据训练样本训练的难易程度,给不同难度的样本不同的权重,一开始给简单的样本最高权重,他们有着较高的概率,接着将较难训练的样本权重调高,最后样本权重统一化了,直接在目标训练集上训练。

简单和困难样本的区分可以通过噪声大小进行区分。无噪声且分类正确的样本是最简单的,困难样本往往包含很多噪声,干扰训练效果。

作者认为课程学习之所以有效可以从以下两个方面解释:

  1. 在训练初期能够花更少的时间在有噪声的和很难去训练的数据上
  2. 可以引导训练走向更好的局部最优和更好的泛化效果:课程学习可以被看作是一种特殊的continuation method。

Relation to other machine learning approaches
Unsupervised preprocessing - Both have a regularizing effect and lower the generalization error for the same training error.
Active learning - The learner would benefit most from the examples that are close to the learner’s frontier of knowledge and are neither too hard nor too easy.
Boosting Algorithms - Difficult examples are gradually emphasised though the curriculum starts with a focus on easier examples and the training criteria do not change.
Transfer learning and Life-long learning - Initial tasks are used to guide the optimisation problem.

这个实验关于三角形、长方形和椭圆形的形状的识别。作者用了两组数据集来区分样本的难易。一组数据集包含了等边三角形、正方形和圆形(BasicShapes),另一组中的形状并不那么规则GeomShapes)。为了说明课程学习的效果,作者采取了以下策略:

  1. 将仅使用GeomShapes数据集训练的结果作为baseline。
  2. 开始先用BasicShapes数据集中的数据进行训练,为了区分难易程度,分别训练0、2、4……、128个epochs(0 epoch就是baseline),然后再用GeomShapes训练至256个epochs,如果validation error到达设定的最小值就提前停止。结果如下图所示curriculum learning_第1张图片
    但是这样的结果可能是因为相比没有课程学习的训练,课程学习的方式看到了更多的样本。因此作者又进行了两个实验,一个是使用BasicShapes和GeomShapes两个数据集的数据在没有课程学习策略的情况下进行训练(这样看到的数据就一样多了);另一个是只使用BasicShapes数据集中的数据进行非课程学习的训练(这样就验证了并非BasicShapes中的数据比较好),两个对比实验的结果都不好,从而说明的课程学习的效果。

你可能感兴趣的:(学术,机器学习)