论文阅读笔记《Meta-SGD: Learning to Learn Quickly for Few-Shot Learning》

小样本学习&元学习经典论文整理||持续更新

核心思想

  本文是在MAML的基础上进一步探索利用元学习实现无模型限制的小样本学习算法。思路与MAML和Meta-LSTM比较接近,首先MAML是利用元学习的方式获得一个较好的初始化参数,在此基础上只需要进行少量样本的微调训练就可以得到较好的结果,这种方式实现简单,但由于只对初始化参数进行学习,模型的容量有限。Meta-LSTM则是利用LSTM网络作为外层网络对内层网络的各项优化参数(学习率、衰减率等)进行学习,这一方法模型容量大,但由于LSTM训练过程复杂,且收敛速度较慢,实用性不高。因此作者受二者启发,提出一种折中的方案,沿用MAML只需要同一个网络结构,分别进行内层次训练和外层次训练。任务数据集分成两部分:训练子集 D t r a i n D^{train} Dtrain和测试子集 D t e s t D^{test} Dtest。首先在训练子集上进行内层次训练,其数学表达如下:
在这里插入图片描述
其中 α \alpha α是一个与 θ \theta θ尺寸相同的向量,同时决定了参数更新的方向和学习率, ∘ \circ 表示逐元素相乘操作。则自适应项 α ∘ ▽ L T ( θ ) \alpha\circ\triangledown L_T(\theta) αLT(θ)是一个向量,其方向就是更新的方向,其长度就表示学习率,如下图所示。
论文阅读笔记《Meta-SGD: Learning to Learn Quickly for Few-Shot Learning》_第1张图片
  在测试子集 D t e s t D^{test} Dtest上进行外层次训练,也就是元学习的过程,同时对初始化参数 θ \theta θ,学习率 α \alpha α和参数更新的方向进行学习。有趣的是,元学习过程还是采用了SGD的方式,学习率 β \beta β是由人工选定的值。
在这里插入图片描述
  元学习的目标是希望找到最优的初始化参数 θ \theta θ和学习率向量 α \alpha α使得训练得到的网络在所有任务上的经验损失最低。
在这里插入图片描述

实现过程

  与MAML相同该算法也是不对模型和任务进行限制,可用于分类、回归和强化学习等多种任务,网络结构和损失函数可以根据任务需求自行选定。

创新点

  • 利用元学习的方法同时对初始化参数,学习率和更新方向进行学习,训练得到的模型可以很容易的经过微调以适应新的任务。

算法评价

  相对于MAML,该算法的模型容量得到了提高;相对于Meta-LSTM,该算法的训练难度得到了明显的下降,根据实验结果来看,在多项任务中相对于MAML和Meta-LSTM都有一定的提高,但由于前两个算法珠玉在前,本文则显得比较平庸,创新性也略显不足。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

你可能感兴趣的:(论文阅读笔记,#,小样本学习,深度学习,小样本学习,元学习)