一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述

《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述(DL笔记整理系列)

[email protected]

https://fanfansann.blog.csdn.net/

https://github.com/fanfansann/fanfan-deep-learning-note

作者:繁凡

version 1.0  2022-1-20

 

声明:

1)《繁凡的深度学习笔记》是我自学完成深度学习相关的教材、课程、论文、项目实战等内容之后,自我总结整理创作的学习笔记。写文章就图一乐,大家能看得开心,能学到些许知识,对我而言就已经足够了 ^q^ 。

2)因个人时间、能力和水平有限,本文并非由我个人完全原创,文章部分内容整理自互联网上的各种资源,引用内容标注在每章末的参考资料之中。

3)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除,非常感谢各位为知识传播做出的贡献!

4)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。

5)本文由我个人( CSDN 博主 「繁凡さん」(博客) , 知乎答主 「繁凡」(专栏), Github 「fanfansann」(全部源码) , 微信公众号 「繁凡的小岛来信」(文章 P D F 下载))整理创作而成,且仅发布于这四个平台,仅做交流学习使用,无任何商业用途。

6)「我希望能够创作出一本清晰易懂、可爱有趣、内容详实的深度学习笔记,而不仅仅只是知识的简单堆砌。」

7)本文《繁凡的深度学习笔记》全汇总链接:《繁凡的深度学习笔记》前言、目录大纲 https://fanfansann.blog.csdn.net/article/details/121702108

8)本文的Github 地址:https://github.com/fanfansann/fanfan-deep-learning-note/ 孩子的第一个『Github』 !给我个 ⭐     Starred \boxed{⭐ \,\,\,\text{Starred}} Starred 嘛!谢谢!!o(〃^▽^〃)o

9)此属 version 1.0 ,若有错误,还需继续修正与增删,还望大家多多指点。本文会随着我的深入学习不断地进行完善更新,Github 中的 P D F 版也会尽量每月进行一次更新,所以建议点赞收藏分享加关注,以便经常过来回看!

如果觉得还不错或者能对你有一点点帮助的话,请帮我给本篇文章点个赞,你的支持是我创作的最大动力!^0^

受篇幅所限(CSDN有字数限制),本文《元学习详解》分为上下两篇,这里是上篇。

文章目录

  • 一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述
    • 15.1 元学习 (Meta Learing):Learning To Learn
    • 15.2 元学习名词解释
    • 15.3 元学习问题定义
      • 15.3.1 元学习形式化
      • 15.3.2 简单示例
      • 15.3.2 学习器和元学习器
      • 15.3.4 Meta Learning的分类
    • 15.4 基于优化的方法
      • 15.4.1 MAML
        • 15.4.2.1 实战 拟合 y = a sin ⁡ ( x + b ) y=a \sin(x+b) y=asin(x+b)
        • 15.4.2.2 First-Order MAML
      • 15.4.2 Reptile
        • 15.4.2.1 The Optimization Assumption
        • 15.4.2.2 Reptile vs FOMAML
      • 15.4.3 LSTM Meta-Learner
    • 15.9 参考资料

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (下)万字中文综述(待更)

    15.5 基于度量的方法
      15.5.1 Convolutional Siamese Neural Network
      15.5.2 Matching Networks
         15.5.2.1 Simple Embedding
         15.5.2.2 Full Context Embeddings
      15.5.3 Relation Network
      15.5.4 Prototypical Networks
    15.6 基于模型的方法
      15.6.1 Memory-Augmented Neural Networks
         15.6.1.1 MANN for Meta-Learning
         15.6.1.2 Addressing Mechanism for Meta-Learning
      15.6.2 Meta Networks
         15.6.2.1 Fast Weights
         15.6.2.2 Model Components
         15.6.2.3 训练过程
    15.7 元学习应用
      15.7.1 计算机视觉和图形
      15.7.2 元强化学习和机器人技术
      15.7.3 环境学习与模拟现实
      15.7.4 神经架构搜索(NAS)
      15.7.5 贝叶斯元学习
      15.7.6 无监督元学习和元学习无监督学习
      15.7.7 主动学习
      15.7.8 持续、在线和适应性学习
      15.7.9 领域适应和领域概括
      15.7.10 超参数优化
      15.7.11 新颖且生物学上可信的学习者
      15.7.12 语言和言语
      15.7.13 元学习促进社会福利
      15.7.14 抽象和合成推理
      15.7.15 系统
    15.8 未来展望
    15.9 参考资料

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述

  元学习的诞生可以追溯到八十年代,当时的深度学习还没有如今这般火热, Jürgen Schmidhuber 在 1987 年的论文《 Evolutionary principles in self-referential learning》 [1] 一文中宣告了一种全新的机器学习方法的诞生:元学习。后来, Tom Schaul、 Jürgen Schmidhuber 两人在 2010 年的论文《Meta learning》 [2] 中更是确定了元学习的复兴。时间进入 2012 年,随着 Hinton 深度学习崭露头角,元学习与强化学习更是借着深度学习的大潮,在各个领域扩展到了极致(例如人脸识别领域等,均可用元学习来加以强化 cross domain 的性能)。

15.1 元学习 (Meta Learing):Learning To Learn

  在现有的机器学习中,我们往往会使用某个场景的大量数据来训练模型,训练出的模型仅适用于这一个场景。当场景发生改变时,我们就需要重新设计模型重新训练参数。但是对于人类而言,一个小朋友成长的过程中会见过许多物体的照片,某一天,在小朋友认识小鸟以后,当小朋友第一次看到了几张狗勾的照片,就可以很好地对狗勾和小鸟进行区分。学会骑自行车的人可以很快甚至自学学会如何骑电动车…… 那么有没有可能让机器学习模型也具有相似的性质呢?如何才能让模型仅仅用少量的数据就学会新的概念和技能呢?换句话说,如何让模型能够自己学会如何学习呢?这就是元学习要解决的问题。

  元学习(Meta Learning),含义为学会学习,即 learn to learn ,带着学会人类的“学习能力”的期望而诞生的新型机器学习方法。Meta Learning 希望使得模型获取“学会学习”的能力,也可以理解为学会自己调参的能力。在接触到没见过的任务或者迁移到新环境中时,可以根据之前学习到的经验知识和少量的新样本的已有“知识”的基础上快速学习如何应对。元学习能解决的任务可以是任意一类定义好的机器学习任务,如监督学习,强化学习等。例如:

  • 让 Alphago 迅速学会下象棋;
  • 让一个猫猫图片分类器,在仅看过少量狗勾的图片以后,迅速具有分类猫狗图片的能力;

  我们期望好的元学习模型能够具备强大的适应能力泛化能力。在模型进行测试之前,模型会先经过一个自适应环节(Adaptation Process),即根据少量样本学习任务。经过自适应后,模型即可完成新的任务。自适应本质上来说就是一个短暂的学习过程,这就是为什么元学习也被称作“学会”学习。

需要注意的是,虽然元学习同样有“预训练”的思想,但是元学习的内核会有别于迁移学习(Transfer Learning),我们将在下文进行详细探讨。

元学习目前有三种常见的实现方法:

  1. 训练以快速学习为目标的模型(基于优化的方法);
  2. 学习有效的距离度量方式(基于度量的方法);
  3. 使用带有显式或隐式记忆储存的(循环)神经网络(基于模型的方法)。

为了让大家更容易理解,我们尝试通过对比已经熟知的机器学习与元学习这两个概念的要素来加深理解:

方法 目的 输入 函数 输出 训练流程
Machine Learing 通过训练数据,学习输入 x x x 与输出 y y y 之间的映射,找到函数 f f f x x x f f f y y y 1. 初始化 f f f​ 参数
2. 输入训练数据 < x , y > <x,y>
3. 计算损失函数,优化 f f f​ 参数
4. 最终得到 y = f ( x ) y=f(x) y=f(x)
Meta Learing 通过大量训练任务 T T T​ 以及每个训练任务对应的训练数据 D D D​,找到函数 F F F​, F F F​ 可以输出一个可用于新任务的函数 f f f 大量训练任务 T T T 及其对应的训练数据 D D D F F F f f f 1. 初始化 F F F 参数
2. 输入大量训练任务 T T T 及其对应的训练数据 D D D
3. 得到 f = F ∗ f=F^* f=F
4. 在新任务中 y = f ( x ) y=f(x) y=f(x)

  我们知道在机器学习中,训练单位是一条数据,通过数据来对模型进行参数优化。数据分为训练集、测试集和验证集。而在元学习中,训练单位分层,第一层训练单位是任务,即训练元学习需要准备许多不同的任务来进行学习,第二层训练单位才是每个任务所对应的数据。 二者的目的都是找一个 Function \text{Function} Function,只是两个 Function \text{Function} Function 的功能和目的均不相同。机器学习中的 Function \text{Function} Function 直接作用于数据的特征与标签,寻找特征与标签之间的关联。而元学习中的 Function \text{Function} Function 是用于寻找适用于新任务的 Function : f \text{Function}:f Function:f f f f 才会作用于具体任务的本身,也即训练模型自己学习、自己解决问题。


图 15.1 火热的元学习

15.2 元学习名词解释

典型的元学习技术包括以下几个概念:

  • Task: 元学习通常将训练数据切分成一个个小的数据子集来训练 meta-learner。“task”的意思与多任务学习的“task”不同,是指元学习训练所使用的数据子集。
  • Support set & query set: 每个 task 分成 support set 和 query set 两个子集。Support set 对应于算法中的内部更新,query set 对应于算法中的外部更新。
  • Way: 是 class(类别)的别称。
  • Shot: 指的是每个类别的样本数量。例如:1-shot 指的并不是一共只有一个数据样本,而是每个类有 1 个样本。

图15.2 中展示了一个典型的 K-shot 的元学习方法的一般套路,其训练阶段的数据和测试阶段的数据包含不同的类别,而训练的每个 task 又被切分成 support set 和 query set 。并且在测试的时候,元学习同样是在 task 上面测,每个 task 测出的准确率,汇总求和后求整体的均值。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第1张图片
图 15.2 一个典型的元学习将数据切分成 task 训练,而每个 task 包含的 5 个分类不同,1-shot 是指每个分类只有一个样本。

15.3 元学习问题定义

15.3.1 元学习形式化

           \,\,\,\,\,\,\,\,\,\, 元学习本身很难定义,它已经以各种不一致的方式被广泛使用,甚至在当前的神经网络文献中也是如此。因此这里引用最新元学习综述 Meta-Learning in Neural Networks: A Survey [19] 的定义,介绍一种特定的定义和关键术语,旨在帮助理解大量文献。

❑ ❑ 传统的机器学习

           \,\,\,\,\,\,\,\,\,\, 我们知道在传统的监督机器学习中,有训练数据集 D = { ( x 1 , y 1 ) , … , ( x N , y N ) } \mathcal D = \{(x_1, y_1),…,(x_N, y_N)\} D={(x1,y1)(xN,yN)},如 (输入图像,输出标签) 对。我们可以训练一个预测模型 y ^ = f θ ( x ) \hat{y}=f_{\theta }\left ( x \right ) y^=fθ(x) 参数化 θ θ θ ,通过求解:
θ ∗ = arg ⁡ min ⁡ θ L ( D ; θ , ω ) \theta^{*}=\arg \min _{\theta} \mathcal{L}(\mathcal{D} ; \theta, \omega) θ=argθminL(D;θ,ω)
其中 L \mathcal L L 是用于测量真实标签与 f θ ( ⋅ ) f_{\theta}(\cdot) fθ() 预测的标签之间的误差的损失函数。 通过评估具有已知标签的多个测试点来测量泛化能力。传统的机器学习假设是这种优化是针对每个问题 D \mathcal D D 从头开始执行的; 并且 ω \omega ω 是预先指定的。 然而, ω \omega ω 的规范会极大地影响性能指标,如准确性或数据效率。元学习试图通过学习学习算法本身来改进这些指标,而不是假设它是预先指定和固定的。 这通常是通过重新审视上述第一个假设并从任务分布中学习而不是从头开始来实现的。

❑ ❑ 元学习:任务分配观 我们前面说过元学习旨在通过学习“如何学习”来提高效果。具体来说,元学习的普遍思想是学习一种通用的学习算法,它可以跨任务进行泛化,理想情况下可以使每个新任务都比上一个任务学习得更好。我们在这里先简单地将任务 T \mathcal T T​ 定义为数据集 D \mathcal D D​ 和损失函数 L \mathcal L L​: T = { D , L } \mathcal T = \{\mathcal D,\mathcal L\} T={D,L}​,数据集中包括特征向量 x x x​ 和标签 y y y​ ,任务分布表示为 p ( T ) p(\mathcal{T}) p(T)​ 。则学习如何学习的学习目标可以表示为:
min ⁡ ω E T ∼ p ( T ) L ( D ; ω ) \min _{\omega} \underset{\mathcal{T} \sim p(\mathcal{T})}{\mathbb{E}} \mathcal{L}(\mathcal{D} ; \omega) ωminTp(T)EL(D;ω)
其中 L ( D ; ω ) \mathcal L(\mathcal D;\omega) L(D;ω) 为用于测量在数据集 D \mathcal D D 上使用 ω \omega ω 训练的模型的性能的损失函数。“如何学习”的知识(参数) ω ω ω 通常被称作跨任务知识 (across-task knowledge) 或元知识 (meta-knowledge)。 简而言之,我们希望能够学到一个通用的参数 meta-knowledge: ω \omega ω,使得不同的 task 的 L \mathcal L L 损失函数都越小越好。

           \,\,\,\,\,\,\,\,\,\, 为了在实际中解决这个问题,我们通常假设访问一组从 p ( T ) p(\mathcal{T}) p(T) 中抽取的源任务,并用这些源任务学习 ω ω ω

           \,\,\,\,\,\,\,\,\,\, 类似于传统的机器学习,meta learning 同样分为 Meta-train 和 Meta-test 两个阶段。形式上,我们将 Meta-train 阶段使用的使用的 M M M 个源任务 (source tasks) 集表示为 D source = { ( D source  train  , D source  val  ) ( i ) } i = 1 M D^{\text{source}}=\left\{\left(\mathcal{D}_{\text {source }}^{\text {train }}, \mathcal{D}_{\text {source }}^{\text {val }}\right)^{(i)}\right\}_{i=1}^{M} Dsource={(Dsource train ,Dsource val )(i)}i=1M,其中每个任务都有训练和验证数据。通常,源序列和验证数据集分别称为支持集 (support set) 和查询集 (query set) (或者预测集 (prediction set))。我们通过采样大量的源任务来学习 meta knowledge (也即最大化它的最大似然估计):
ω ∗ = arg ⁡ max ⁡ ω log ⁡ p ( ω ∣ D source  ) \omega^{*}=\arg \max _{\omega} \log p\left(\omega \mid \mathscr{D}_{\text {source }}\right) ω=argωmaxlogp(ωDsource )
           \,\,\,\,\,\,\,\,\,\, 然后我们将元测试阶段使用的 Q Q Q 目标任务 (target tasks) 集合表示为 D target = { ( D target  train  , D target  test  ) ( i ) } i = 1 Q \mathcal D^{\text{target}}=\left\{\left(\mathcal{D}_{\text {target }}^{\text {train }}, \mathcal{D}_{\text {target }}^{\text {test }}\right)^{(i)}\right\}_{i=1}^{Q} Dtarget={(Dtarget train ,Dtarget test )(i)}i=1Q,其中每个任务都有训练和测试数据。在 Meta-Testing 阶段,我们使用学习到的元知识对每个之前未见过的目标任务 task i \text{task}_i taski 的基础模型进行训练:
θ ∗ ( i ) = arg ⁡ max ⁡ θ log ⁡ p ( θ ∣ ω ∗ , D target  train  ( i ) ) \theta^{*(i)}=\arg \max _{\theta} \log p\left(\theta \mid \omega^{*}, \mathcal{D}_{\text {target }}^{\text {train }^{(i)}}\right) θ(i)=argθmaxlogp(θω,Dtarget train (i))
           \,\,\,\,\,\,\,\,\,\, 即 Meta-Testing 的目标就是基于已经学到的 Meta-Knowledge ( ω \omega ω) 来寻找当前任务 task i \text{task}_i taski 的最优参数 θ ∗ ( i ) \theta^*(i) θ(i) 。此时可以通过 θ ∗ ( i ) \theta^*{(i)} θ(i) 在每个目标任务 D target  test  ( i ) \mathcal{D}_{\text {target }}^{\text {test }(i)} Dtarget test (i) 的测试拆分上的表现来评估我们的元学习器 (meta-learner) 的准确性。

           \,\,\,\,\,\,\,\,\,\, 为了训练 Meta-Knowledge ,meta learning 提出了两种常用的做法:双层优化观 (Bilevel Optimization View) 和 前馈模型观 (Feed-Forward Model View)。

❑ ❑ 元学习:双层优化观(Bilevel Optimization View)

双层优化观(Bilevel Optimization View)是指一个层次优化问题,其中一个优化包含另一个优化作为约束[25],[43]。我们知道正常训练模型的流程是先使用 train set 训练,然后再使用 test/val set 测试。因此,在 Meta-training 的过程中,我们可以构造两层优化过程,在 inner-loop 即内层中使用 train set 更新任务模型参数,然后在 outer-loop 基于更新后的模型对 meta-knowledge 进行优化。双层优化的元训练可以表示为:
ω ∗ = arg ⁡ min ⁡ ω ∑ i = 1 M L meta  ( θ ∗ ( i ) ( ω ) , ω , D source  val  ( i ) )  s.t.  θ ∗ ( i ) ( ω ) = arg ⁡ min ⁡ θ L task  ( θ , ω , D source  train  ( i ) ) \begin{aligned}\omega^{*} &=\underset{\omega}{\arg \min } \sum_{i=1}^{M} \mathcal{L}^{\text {meta }}\left(\theta^{*(i)}(\omega), \omega, \mathcal{D}_{\text {source }}^{\text {val }(i)}\right) \\\text { s.t. } \theta^{*(i)}(\omega) &=\underset{\theta}{\arg \min } \mathcal{L}^{\text {task }}\left(\theta, \omega, \mathcal{D}_{\text {source }}^{\text {train }(i)}\right)\end{aligned} ω s.t. θ(i)(ω)=ωargmini=1MLmeta (θ(i)(ω),ω,Dsource val (i))=θargminLtask (θ,ω,Dsource train (i))
其中 L meta \mathcal L^{\text{meta}} Lmeta​ 和 L task \mathcal L^{\text{task}} Ltask​ 分别指外部的目标损失函数和内部的目标损失函数,如交叉熵在少样本分类的情况下。双层范式的一个关键特征是内外层的主从不对称:内层优化 E q . 5 Eq.5 Eq.5​ 是以外层定义的学习策略 ω ω ω​ 为条件的,但在训练过程中不能改变 ω ω ω​。

训练过程如下图所示:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第2张图片
图 15.3 双层优化(图片来源 [26])

  

假设我们已经找到了最优的 meta knowledge,那么意味着我们使用 train set 优化模型得到的参数也是最优的。

注意在上述元训练的形式化中我们使用了在任务上分布的概念,并使用了来自该分布的 M M M​ 个任务样本。虽然这一步骤的效果显著,且广泛应用于元学习文献之中,但它不是元学习的必要条件。更正式地说,如果给我们一个单独的训练和测试数据集,我们可以分割训练集以获得验证数据,以便 D source  = ( D source  train  , D source  val  ) \mathscr{D}_{\text {source }}=\left(\mathcal{D}_{\text {source }}^{\text {train }}, \mathcal{D}_{\text {source }}^{\text {val }}\right) Dsource =(Dsource train ,Dsource val )​ 用于元训练,对于元测试,我们可以使用 D target  = ( D source  train  ∪ D source  val  , D target  est  ) \mathscr{D}_{\text {target }}=\left(\mathcal{D}_{\text {source }}^{\text {train }} \cup \mathcal{D}_{\text {source }}^{\text {val }}, \mathcal{D}_{\text {target }}^{\text {est }}\right) Dtarget =(Dsource train Dsource val ,Dtarget est )​ 。虽然元训练中通常使用不同的训练值分割,但我们仍然可以多次学习 ω ω ω​,此时认为 M = Q = 1 M=Q=1 M=Q=1​​。

BiLevel Optimization 的思想非常重要,几乎所有的 meta learning 问题都可以套用。

❑ ❑ 元学习:前馈模型观 (Feed-Forward Model View)

在元学习几十年来的发展过程中,有许多元学习方法以 前馈 的方式来合成模型,而不是像上面的 E q . 4   &   E q . 5 Eq.4\ \&\ Eq.5 Eq.4 & Eq.5​​ 那样通过显式的迭代优化。 因为 BiLevel Optimization 的 inner-loop 中并不一定要用优化的方法,可以是任意的方式。即优化后的模型是可以通过 meta-knowledge 隐式的来表示:
min ⁡ ω E T ∼ p ( T ) ( D tr , D val ) ∈ T     ∑ ( x , y ) ∈ D val [ ( x T g ω ( D tr ) − y ) 2 ] \min _{\omega} \underset{\underset{\left(\mathcal{D}^{\text{tr}}, \mathcal{D}^{\text{val}}\right) \in \mathcal{T}}{\mathcal{T} \sim p(\mathcal{T})}}{\mathbb{E}}\ \ \ {\sum_{(\mathbf{x}, y) \in \mathcal{D}^{\text{val}}}\left[\left(\mathbf{x}^{T} \mathbf{g}_{\omega}\left(\mathcal{D}^{\text{tr}}\right)-y\right)^{2}\right]} ωmin(Dtr,Dval)TTp(T)E   (x,y)Dval[(xTgω(Dtr)y)2]
其中 g ω ( D tr ) \mathbf{g}_{\omega}(\mathcal D^{\text{tr}}) gω(Dtr)​ 为基于 meta knowledge 和 train set 得到的隐式模型。

这里通过优化任务分布来进行元训练。对于每项任务,都会拆分为一个训练集和一个验证集。 训练集 D tr \mathcal D^{\text{tr}} Dtr 被嵌入到一个向量 g ω \mathbf g_{\omega} gω 中,该向量定义了线性回归权重以从验证集中预测示例 x \mathbf x x。通过训练函数 g ω \mathbf g_{\omega} gω 优化 E q . 6 Eq.6 Eq.6 的 ‘learns to learn’。 将训练集映射到权重向量。我们期望从 p ( T ) p(\mathcal T) p(T) 中提取的新的元测试任务 T te \mathcal T^{\text{te}} Tte 也可以在 g ω \mathbf g_{\omega} gω 得到一个较好的预测。该系列中的方法因所使用的预测模型 g \mathbf g g 的复杂性以及支持集的嵌入方式而异(例如,通过池化层、CNN 层 或 RNN 层等)。这些模型也被称为 amortized,因为学习新任务的成本通过 g ω ( ⋅ ) \mathbf g_{\omega}(\cdot) gω() 减少到前馈操作,在 ω \omega ω 的元训练期间已经进行了迭代优化。

15.3.2 简单示例

           \,\,\,\,\,\,\,\,\,\, 我们现在假设有一个任务的分布,我们从这个分布中采样了许多任务作为训练集。一个好的元学习模型在这个训练集上训练后,应当对这个空间里所有的任务都具有良好的表现,即使是从来没见过的任务。每个任务可以表示为一个数据集 D \mathcal{D} D ,数据集中包括特征向量 x x x 和标签 y y y ,分布表示为 p ( D ) p(\mathcal{D}) p(D) 。那么最佳的元学习模型参数可以表示为:

θ ∗ = arg ⁡ min ⁡ θ E D ∼ p ( D ) [ L θ ( D ) ] \theta^* = \arg\min_\theta \mathbb{E}_{\mathcal{D}\sim p(\mathcal{D})} [\mathcal{L}_\theta(\mathcal{D})] θ=argθminEDp(D)[Lθ(D)]

           \,\,\,\,\,\,\,\,\,\, 少样本学习(Few-shot classification) 是元学习的在监督学习中的一个实例。数据集 D \mathcal{D} D 经常被划分为两部分,一个用于学习的支持集(support set) S S S ,和一个用于训练和测试的预测集(prediction set) B B B ,即 D = ⟨ S , B ⟩ \mathcal{D}=\langle S, B\rangle D=S,BK-shot N-class 分类任务,即支持集中有 N N N 类数据,每类数据有 K K K 个带有标注的样本。


图 15.4 4-shot 2-class 图像分类的例子。 (图像来源 https://www.pinterest.com/)

  

           \,\,\,\,\,\,\,\,\,\, 一个数据集 D \mathcal{D} D 包含许多对特征向量和标签,即 D = { ( x i , y i ) } \mathcal{D} = \{(\mathbf{x}_i, y_i)\} D={(xi,yi)} 。每个标签属于一个标签类 L \mathcal{L} L 。假设我们的分类器 f θ f_\theta fθ 的输入是特征向量 x \mathbf{x} x ,输出是属于第 y y y 类的概率 P θ ( y ∣ x ) P_\theta(y\vert\mathbf{x}) Pθ(yx) θ \theta θ 是分类器的参数。

           \,\,\,\,\,\,\,\,\,\, 如果我们每次选一个 B ⊂ D B \subset \mathcal{D} BD 作为训练的 batch ,则最佳的模型参数,应当能够最大化,多组 batch 的正确标签概率之和。

θ ∗ = arg ⁡ max ⁡ θ E ( x , y ) ∈ D [ P θ ( y ∣ x ) ] θ ∗ = arg ⁡ max ⁡ θ E B ⊂ D [ ∑ ( x , y ) ∈ B P θ ( y ∣ x ) ] ; trained with mini-batches. \begin{aligned} \theta^* &= {\arg\max}_{\theta} \mathbb{E}_{(\mathbf{x}, y)\in \mathcal{D}}[P_\theta(y \vert \mathbf{x})] &\\ \theta^* &= {\arg\max}_{\theta} \mathbb{E}_{B\subset \mathcal{D}}[\sum_{(\mathbf{x}, y)\in B}P_\theta(y \vert \mathbf{x})] & \scriptstyle{\text{; trained with mini-batches.}} \end{aligned} θθ=argmaxθE(x,y)D[Pθ(yx)]=argmaxθEBD[(x,y)BPθ(yx)]; trained with mini-batches.

           \,\,\,\,\,\,\,\,\,\, 少样本学习的目标是,在小规模的 support set 上 “快速学习”(类似fine-tuning (微调技巧) )后,能够减少在 prediction set 上的预测误差。为了训练模型快速学习的能力,我们在训练的时候按照以下步骤:

  1. 采样一个标签的子集, L ⊂ L L\subset\mathcal{L} LL .
  2. 根据采样的标签子集,采样一个 support set S L ⊂ D S^L \subset \mathcal{D} SLD 和一个 training batch B L ⊂ D B^L \subset \mathcal{D} BLD S L S^L SL B L B^L BL 中的数据的标签都属于 L L L ,即 y ∈ L , ∀ ( x , y ) ∈ S L , B L y \in L, \forall (x, y) \in S^L, B^L yL,(x,y)SL,BL .
  3. 把 support set 作为模型的输入,进行“快速学习”。注意,不同的算法具有不同的学习策略,但总的来说,这一步不会永久性更新模型参数。
  4. 把 prediction set 作为模型的输入,计算模型在 B L B^L BL 上的 loss,根据这个 loss 进行反向传播更新模型参数。这一步与监督学习一致。

你可以把每一对 ( S L , B L ) (S^L, B^L) (SL,BL) 看做是一个数据点。模型被训练出了在其他数据集上扩展的能力。下式中的红色部分是元学习的目标相比于监督学习的目标多出来的部分。

θ = arg ⁡ max ⁡ θ E L ⊂ L [ E S L ⊂ D , B L ⊂ D [ ∑ ( x , y ) ∈ B L P θ ( x , y , S L ) ] ] \theta = \arg\max_\theta \color{red}{E_{L\subset\mathcal{L}}[} E_{\color{red}{S^L \subset\mathcal{D}, }B^L \subset\mathcal{D}} [\sum_{(x, y)\in B^L} P_\theta(x, y\color{red}{, S^L})] \color{red}{]} θ=argθmaxELL[ESLD,BLD[(x,y)BLPθ(x,y,SL)]]

15.3.2 学习器和元学习器

还有一种常见的看待 meta learning 的视角,把模型的更新划分为了两个阶段:

  • 根据给定的任务,训练一个分类器 f θ f_\theta fθ 完成任务,作为“学习器”模型
  • 同时,训练一个元学习器 g ϕ g_\phi gϕ ,根据support set S S S 学习如何更新学习器模型的参数。 θ ′ = g ϕ ( θ , S ) \theta' = g_\phi(\theta, S) θ=gϕ(θ,S)

则最后的优化目标中,我们需要更新 θ \theta θ ϕ \phi ϕ 来最大化:

E L ⊂ L [ E S L ⊂ D , B L ⊂ D [ ∑ ( x , y ) ∈ B L P g ϕ ( θ , S L ) ( y ∣ x ) ] ] \mathbb{E}_{L\subset\mathcal{L}}[ \mathbb{E}_{S^L \subset\mathcal{D}, B^L \subset\mathcal{D}} [\sum_{(\mathbf{x}, y)\in B^L} P_{g_\phi(\theta, S^L)}(y \vert \mathbf{x})]] ELL[ESLD,BLD[(x,y)BLPgϕ(θ,SL)(yx)]]

15.3.4 Meta Learning的分类

           \,\,\,\,\,\,\,\,\,\, 元学习主要有三类常见的方法:基于度量的方法(metric-based),基于模型的方法(model-based),基于优化的方法(optimization-based)。 Oriol Vinyals在NIPS 2018的meta-learning symposium上做了一个很好的总结(http://metalearning-symposium.ml/files/vinyals.pdf):

Model-based Metric-based Optimization-based
Key idea RNN; memory Metric learning Gradient descent
How P θ ( y ∣ x ) P_\theta(y \vert \mathbf{x}) Pθ(yx) is modeled? f θ ( x , S ) f_\theta(\mathbf{x}, S) fθ(x,S) ∑ ( x i , y i ) ∈ S k θ ( x , x i ) y i \sum_{(\mathbf{x}_i, y_i) \in S} k_\theta(\mathbf{x}, \mathbf{x}_i)y_i (xi,yi)Skθ(x,xi)yi (*) P g ϕ ( θ , S L ) ( y ∣ x ) P_{g_\phi(\theta, S^L)}(y \vert \mathbf{x}) Pgϕ(θ,SL)(yx)

(*) k θ k_\theta kθ 是一个衡量 x i \mathbf{x}_i xi x \mathbf{x} x 相似度的kernel function。

           \,\,\,\,\,\,\,\,\,\, 元学习综述 Meta-Learning in Neural Networks: A Survey [19] 中创新性地提出了一种新的分类方法,即对元学习 Meta Learing 按照 是什么(What,Meta-Representation),怎么做(How,Meta-Optimizer),为什么(Why,Objective)来分类。

我们沿着三个独立的轴引入一个新的分类。对于每个轴,我们都提供了反映当前元学习环境的分类法:

❑ ❑ 元表示(“什么?”)

第一个轴是元知识 ω ω ω 表示的选择。这可以将用于优化器初始化的模型参数 [19] 的估计扩展到程序归纳的可读代码 [89] 。注意,基本模型表示 θ θ θ 通常是特定于应用的,例如计算机视觉中的卷积神经网络(CNN)[1]。

❑ ❑ 元优化器(“如何?”)

第二个轴是在元训练(见等式5)1期间用于外部水平的优化器的选择。ω的外层优化器可以有多种形式,从梯度下降[19],到强化学习[89]和进化搜索[23]。

❑ ❑ 元目标(“为什么?”)

第三个轴是元学习的目标,它由元目标 L meta \mathcal L_\text{meta} Lmeta、任务分布 p ( T ) p(\mathcal T) p(T)​​​ 和两个层次之间的数据流的选择决定。它们可以一起为不同的目的定制元学习,例如样本有效的少样本学习[19]、[40]、快速多样本优化[89]、[91]或对域移位的鲁棒性[44]、[92]、标签噪声[93]和对抗攻击[94]。


此处的引用文章详见原综述论文 [19]。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第3张图片
图 15.5 元学习环境概述,包括算法设计(元优化器,元表示,元目标)和应用

15.4 基于优化的方法

本节 15.4 基于优化的方法 部分内容翻译自 Meta-Learning: Learning to Learn Fast [18],部分内容由我个人原创整理而成,一些更准确的描述请参见原文。

           \,\,\,\,\,\,\,\,\,\, 深度学习模型通过反向传播梯度进行学习。基于梯度的优化方法并不适用于仅有少量训练样本的情况,也很难在短短几步之内达到收敛。为了调整现有的优化算法使得模型能够在仅有少量样本的情况下训练出效果较好的模型,人们提出了基于优化的元学习算法。

15.4.1 MAML

           \,\,\,\,\,\,\,\,\,\, Model-Agnostic Meta-Learning 简称 MAML [17],是一种非常通用的优化算法,可以被用于任何基于梯度下降学习的模型。MAML 的目的是获取一组更好的模型初始化参数(即让模型自己学会初始化)

           \,\,\,\,\,\,\,\,\,\, 假设我们的模型是 f θ f_\theta fθ,参数为 θ \theta θ。给定一个任务 T i \mathcal T_i Ti 和其相应的数据集 ( D train ( i ) , D test ( i ) ) (\mathcal{D}^{(i)}_\text{train}, \mathcal{D}^{(i)}_\text{test}) (Dtrain(i),Dtest(i)),我们可以对模型参数进行一次或多次梯度下降。(下式中只进行了一次迭代):

θ i ′ = θ − α ∇ θ L T i ( 0 ) ( f θ ) \theta'_i = \theta - \alpha \nabla_\theta\mathcal{L}^{(0)}_{\mathcal T_i}(f_\theta) θi=θαθLTi(0)(fθ)
其中 L ( 0 ) \mathcal{L}^{(0)} L(0)​ 是由编号为 0 0 0​ 的小数据批量计算得到的损失函数。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第4张图片
图 15.6 MAML图示。 (图像来源:原论文 [17])

  

           \,\,\,\,\,\,\,\,\,\, 当然,上面这个式子只针对一个特定的任务进行了优化。而 MAML 为了能够更好地扩展到一系列任务上,我们想要寻找一个在给定任意任务后微调过程最高效 θ ∗ \theta^* θ。现在,假设我们采样了一个编号为 1 1 1 的数据 batch 用于更新元目标。对应的损失函数记为 L ( 1 ) \mathcal{L}^{(1)} L(1) L ( 0 ) \mathcal{L}^{(0)} L(0) L ( 1 ) \mathcal{L}^{(1)} L(1)的上标只代表着数据 batch 不同,他们都是同一个目标方程计算得到的。则有:

θ ∗ = arg ⁡ min ⁡ θ ∑ T i ∼ p ( T ) L T i ( 1 ) ( f θ i ′ ) = arg ⁡ min ⁡ θ ∑ T i ∼ p ( T ) L T i ( 1 ) ( f θ − α ∇ θ L T i ( 0 ) ( f θ ) ) θ ← θ − β ∇ θ ∑ T i ∼ p ( T ) L T i ( 1 ) ( f θ − α ∇ θ L T i ( 0 ) ( f θ ) ) ; updating rule \begin{aligned} \theta^* &= \arg\min_\theta \sum_{\mathcal T_i \sim p(\mathcal T)} \mathcal{L}_{\mathcal T_i}^{(1)} (f_{\theta'_i}) = \arg\min_\theta \sum_{\mathcal T_i \sim p(\mathcal T)} \mathcal{L}_{\mathcal T_i}^{(1)} (f_{\theta - \alpha\nabla_\theta \mathcal{L}_{\mathcal T_i}^{(0)}(f_\theta)}) & \\ \theta &\leftarrow \theta - \beta \nabla_{\theta} \sum_{\mathcal T_i \sim p(\mathcal T)} \mathcal{L}_{\mathcal T_i}^{(1)} (f_{\theta - \alpha\nabla_\theta \mathcal{L}_{\mathcal T_i}^{(0)}(f_\theta)}) & \scriptstyle{\text{; updating rule}} \end{aligned} θθ=argθminTip(T)LTi(1)(fθi)=argθminTip(T)LTi(1)(fθαθLTi(0)(fθ))θβθTip(T)LTi(1)(fθαθLTi(0)(fθ)); updating rule
MAML 的损失函数即为每个任务的损失函数之和:
L ( ϕ ) = ∑ i = 1 n L n ( θ ^ n ) L(\phi)=\sum_{i=1}^n\mathcal L^n(\hat\theta^n) L(ϕ)=i=1nLn(θ^n)
MAML 算法过程的伪代码如下:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第5张图片
  
一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第6张图片
图 15.7 MAML的训练流程

  
图 15.4 为 MAML 的训练流程。内部更新将初始化参数的 θ \theta θ 更新为 θ ′ \theta' θ 而外部更新利用 θ ′ \theta' θ 作为网络参数去计算损失函数,这个损失函数最后用来计算元梯度来外部更新。

人们创造出了一个可以用来测试元学习效果的另一种语言:火星文字符图像数据集:Omniglot:https://github.com/brendenlake/omniglot 。Omniglot 包含 1623 1623 1623​ 个不同的火星文字符,每个字符包含 20 20 20​ 个手写的 case。这个任务是判断每个手写的 case 属于哪一个火星文字符。我们可以使用 Omniglot 将作为元学习的任务来源。

整个 MAML 算法流程如下:

  1. 准备 N N N 个训练任务 (Train Task) 、每个训练任务对应的 Support Set 和 Query Set。再准备几个测试任务,测试任务用于评估 meta learning 学习到的参数的效果。

  2. 定义网络结构,如 CNN,并初始化一个 meta 网络的参数为 ϕ 0 \phi^0 ϕ0​ , meta 网络是最终要用来应用到新的测试任务中的网络,该网络中存储了 meta knowledge ω \omega ω​​ 。

    一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第7张图片
    图 15.8 MAML 算法流程(图片来源 [28])
  3. 开始执行迭代“预训练”:

    a. 采样 1 1 1 个训练任务 m m m(或者 1 1 1 个 batch 的几个训练任务,上图显示的是采样了 1 1 1 个训练任务)。将 meta 网络的参数 ϕ 0 \phi^0 ϕ0 赋值给任务 m m m 独有的网络,得到 θ ^ m \hat\theta^m θ^m (初始的 θ ^ m = ϕ 0 \hat\theta^m=\phi^0 θ^m=ϕ0 ) ;

    b. 使用任务 m m m 的 Support Set,基于任务 m m m 的学习率 α m \alpha_m αm ,对 θ ^ m \hat\theta^m θ^m 进行 1 1 1 次优化,更新 θ ^ m \hat\theta^m θ^m

    c. 基于 1 1 1 次优化后的 θ ^ m \hat\theta^m θ^m ,使用 Query Set 计算任务 m m m 的损失函数 —— L m ( θ ^ m ) \mathcal L^m(\hat\theta^m) Lm(θ^m) ,并计算 L m ( θ ^ m ) \mathcal L^m(\hat\theta^m) Lm(θ^m) θ ^ m \hat\theta^m θ^m 的梯度;

    d. 用该梯度,乘以 meta 网络的学习率 α meta \alpha_{\text{meta}} αmeta​,更新参数 ϕ 0 \phi^0 ϕ0 得到 ϕ 1 \phi^1 ϕ1(注意,第一个蓝色箭头与第二个绿色箭头是平行的,这里的含义是 ϕ 0 \phi^0 ϕ0 的更新与 θ ^ m \hat\theta^m θ^m​ 梯度的方向一致);

    e. 采样 1 1 1 个任务 n n n,将参数中赋值给任务 n n n ,得到 θ ^ n \hat\theta^n θ^n (初始的 θ ^ n = ϕ 1 \hat\theta^n=\phi^1 θ^n=ϕ1 );

    f. 然后使用任务 n n n​ 的训练数据,基于任务 n n n​ 的学习率,对 θ ^ n \hat\theta^n θ^n​ 进行一次优化更新 θ ^ n \hat\theta^n θ^n​ ;

    g. 基于 1 1 1 次优化后的 θ ^ n \hat\theta^n θ^n,使用 Query Set 计算任务 n n n 的损失函数—— L n ( θ ^ n ) \mathcal L^n(\hat\theta^n) Ln(θ^n),并计算 θ ^ n \hat\theta^n θ^n 上的梯度;

    h. 用该梯度,乘以 meta 网络的学习率 α meta \alpha_{\text{meta}} αmeta,更新 ϕ 1 \phi^1 ϕ1 ,得到 ϕ 2 \phi^2 ϕ2

    i. 在训练任务上,重复执行 a-h 的过程。

  4. 通过 3 得到 meta 网络的参数,该参数可以在测试任务中,使用测试任务的 Support Set 对 meta 网络的参数进行 finetuing。

  5. 最终使用测试任务的 Query Set 评估 meta learning 的效果。

基于 Tensorflow2.0 实现的 MAML 部分代码如下:

完整代码详见:https://github.com/dragen1860/MAML-TensorFlow

## 网络构建部分: refer: https://github.com/dragen1860/MAML-TensorFlow

#################################################
# 任务描述:5-ways,1-shot图像分类任务,图像统一处理成 84 * 84 * 3 = 21168的尺寸。
# support set:5 * 1
# query set:5 * 15
# 训练取1个batch的任务:batch size:4
# 对训练任务进行训练时,更新5次:K = 5
#################################################

print(support_x) # (4, 5, 21168) 
print(query_x) # (4, 75, 21168)
print(support_y) # (4, 5, 5)
print(query_y) # (4, 75, 5)
print(meta_batchsz) # 4
print(K) # 5

model = MAML()
model.build(support_x, support_y, query_x, query_y, K, meta_batchsz, mode='train')

class MAML:
    def __init__(self):
        pass
    def build(self, support_xb, support_yb, query_xb, query_yb, K, meta_batchsz, mode='train'):
        """
        :param support_xb: [4, 5, 84*84*3] 
        :param support_yb: [4, 5, n-way]
        :param query_xb:  [4, 75, 84*84*3]
        :param query_yb: [4, 75, n-way]
        :param K:  训练任务的网络更新步数
        :param meta_batchsz: 任务数,4
        """

        self.weights = self.conv_weights() # 创建或者复用网络参数;训练任务对应的网络复用meta网络的参数
        training = True if mode is 'train' else False      
        def meta_task(input):
            """
            :param support_x:   [setsz, 84*84*3] (5, 21168)
            :param support_y:   [setsz, n-way] (5, 5)
            :param query_x:     [querysz, 84*84*3] (75, 21168)
            :param query_y:     [querysz, n-way] (75, 5)
            :param training:    training or not, for batch_norm
            :return:
            """

            support_x, support_y, query_x, query_y = input
            query_preds, query_losses, query_accs = [], [], [] # 子网络更新K次,记录每一次queryset的结果
 
            ## 第0次对网络进行更新
            support_pred = self.forward(support_x, self.weights, training) # 前向计算support set
            support_loss = tf.nn.softmax_cross_entropy_with_logits(logits=support_pred, labels=support_y) # support set loss
            support_acc = tf.contrib.metrics.accuracy(tf.argmax(tf.nn.softmax(support_pred, dim=1), axis=1),
                                                         tf.argmax(support_y, axis=1))
            grads = tf.gradients(support_loss, list(self.weights.values())) # 计算support set的梯度
            gvs = dict(zip(self.weights.keys(), grads))
            # 使用support set的梯度计算的梯度更新参数,theta_pi = theta - alpha * grads
            fast_weights = dict(zip(self.weights.keys(), \
                    [self.weights[key] - self.train_lr * gvs[key] for key in self.weights.keys()]))

            # 使用梯度更新后的参数对quert set进行前向计算
            query_pred = self.forward(query_x, fast_weights, training)
            query_loss = tf.nn.softmax_cross_entropy_with_logits(logits=query_pred, labels=query_y)
            query_preds.append(query_pred)
            query_losses.append(query_loss)
 
            # 第1到 K-1 次对网络进行更新
            for _ in range(1, K):           
                loss = tf.nn.softmax_cross_entropy_with_logits(logits=self.forward(support_x, fast_weights, training),
                                                               labels=support_y)
                grads = tf.gradients(loss, list(fast_weights.values()))
                gvs = dict(zip(fast_weights.keys(), grads))
                fast_weights = dict(zip(fast_weights.keys(), [fast_weights[key] - self.train_lr * gvs[key]
                                         for key in fast_weights.keys()]))
                query_pred = self.forward(query_x, fast_weights, training)
                query_loss = tf.nn.softmax_cross_entropy_with_logits(logits=query_pred, labels=query_y)
                # 子网络更新K次,记录每一次queryset的结果
                query_preds.append(query_pred)
                query_losses.append(query_loss)

            for i in range(K):
                query_accs.append(tf.contrib.metrics.accuracy(tf.argmax(tf.nn.softmax(query_preds[i], dim=1), axis=1),
                                                                tf.argmax(query_y, axis=1)))
            result = [support_pred, support_loss, support_acc, query_preds, query_losses, query_accs]
            return result

        # return: [support_pred, support_loss, support_acc, query_preds, query_losses, query_accs]
        out_dtype = [tf.float32, tf.float32, tf.float32, [tf.float32] * K, [tf.float32] * K, [tf.float32] * K]
        result = tf.map_fn(meta_task, elems=(support_xb, support_yb, query_xb, query_yb),
                           dtype=out_dtype, parallel_iterations=meta_batchsz, name='map_fn')
        support_pred_tasks, support_loss_tasks, support_acc_tasks, \
            query_preds_tasks, query_losses_tasks, query_accs_tasks = result

        if mode is 'train':
            self.support_loss = support_loss = tf.reduce_sum(support_loss_tasks) / meta_batchsz
            self.query_losses = query_losses = [tf.reduce_sum(query_losses_tasks[j]) / meta_batchsz
                                                    for j in range(K)]
            self.support_acc = support_acc = tf.reduce_sum(support_acc_tasks) / meta_batchsz
            self.query_accs = query_accs = [tf.reduce_sum(query_accs_tasks[j]) / meta_batchsz
                                                    for j in range(K)]

            # 更新meta网络,只使用了第 K步的query loss。这里应该是个超参,更新几步可以调调
            optimizer = tf.train.AdamOptimizer(self.meta_lr, name='meta_optim')
            gvs = optimizer.compute_gradients(self.query_losses[-1])
   # def ********

三个 MAML 算法的核心问题(源自 李宏毅2021机器学习课程 [28]):

  1. MAML 的执行过程与 model pre-training & transfer learning 的区别是什么?
  2. 为何在 meta 网络赋值给具体训练任务(如任务 m m m)后,要先更训练任务的参数,再计算梯度,更新 meta 网络?
  3. 在更新训练任务的网络时,只走了一步,然后更新 meta 网络。为什么是一步,可以是多步吗?

问题1:MAML 的执行过程与 model pre-training & transfer learning 的区别是什么?

我们列举出 meta learning 与 model pre-training 的损失函数进行对比:

MAML 的 meta 模型的损失函数:
L ( ϕ ) = ∑ i = 1 n L n ( θ ^ n ) L(\phi)=\sum_{i=1}^n\mathcal L^n(\hat\theta^n) L(ϕ)=i=1nLn(θ^n)
model pre-training 的损失函数为:
L ( ϕ ) = ∑ i = 1 n L n ( ϕ ) L(\phi)=\sum_{i=1}^n\mathcal L^n(\phi) L(ϕ)=i=1nLn(ϕ)
meta learning 的损失函数 L \mathcal L L 是在使用 support set 将任务网络的参数全部更新过一次后,然后使用 query set 进行计算。在更新之后任务网络的参数与 meta 网络的参数不同。

由于机器学习有且仅有一个模型,model pre-training 的损失函数 L \mathcal L L 是对同一个模型的参数,使用训练数据计算的损失函数以及梯度,对模型参数进行更新;如果有多个训练任务,我们可以将模型参数在很多任务上进行预训练,训练的所有梯度都会直接更新模型的参数。

二者的更新过程如图所示:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第8张图片
图 15.9 MAML 与 Model Pre-training 的更新区别(图片来源 [28])

  

           \,\,\,\,\,\,\,\,\,\, meta learing 的 MAML 算法 更新流程我们在上文中讲过了,这里简单复述一遍,我们首先将模型初始化的参数 ϕ 0 \phi^0 ϕ0 直接赋值给模型任务 m m m 的参数 θ ^ m \hat\theta^m θ^m,即第一个绿色箭头。然后对 m m m 任务网络进行梯度更新,然后对 meta 网络进行同方向的梯度更新,即第一个蓝色箭头平行于第二个绿色箭头。然后对任务 n n n 进行一次上述操作,直到所有任务均对 meta 网络进行一次同梯度方向的更新以后,一次训练完成。我们发现尽管 meta 网络的参数更新方向使用的是梯度的方向,但是由于我们每次将 meta 网络的参数赋值给任务网络,然后按照任务网络的梯度方向进行更新,所以更新一次之后,所有人物网络的参数与 meta 网络的参数均不相同。meta Learing 希望最小化每一个子任务训练更新一次之后,第二次在 query set 上对于所有任务得到的损失函数,子任务从状态 0 0 0 到状态 1 1 1,我们希望状态 1 1 1 的损失函数小,也即更加关心初始化参数未来的潜力。

           \,\,\,\,\,\,\,\,\,\, 机器学习的 model pre-training 使用子任务的梯度更新模型的参数,联合起来一步一步更新模型。希望最小化模型的在所有任务上的损失函数,由于只有一个模型,所以希望找到一个在大多数任务上表现最好的初始化参数,即满足当前表现最好。

           \,\,\,\,\,\,\,\,\,\, 如图 15.10 所示,model pre-training 找到的参数 ϕ \phi ϕ,在两个任务上当前的表现比较好,也即当前选择最优的参数,但再之后训练并不能保证会更好。

           \,\,\,\,\,\,\,\,\,\, MAML 的参数 ϕ \phi ϕ 在子任务当前的表现并不是最好的,因为我们并不关心在任务网络上的结果,我们关心使用 ϕ \phi ϕ 训练出的 θ ^ n \hat\theta^n θ^n 表现如何,并且我们将模型继续训练下去,更大可能达到各自任务的局部最优情况。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第9张图片
图 15.10 MAML (图片来源 [28])
一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第10张图片
图 15.11 Model Pre-training (图片来源 [28])

  

这里给出一个 toy example 再对二者的区别进行展示。

❑ ❑ 训练任务:给定 N N N 个函数, y = a sin ⁡ x + b y = a\sin x + b y=asinx+b,我们只需要修改 a , b a,b a,b 的取值即可得到不同的 sin ⁡ \sin sin 函数,从每个函数中采样出 K K K 个点来拟合最初的给定函数。

❑ ❑ 训练过程:用这 N N N 个训练任务采样的数据点分别通过 MAML 与 model pre-training 训练网络,得到预训练的参数。

训练结果如图 15.12 所示:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第11张图片
图 15.12 Toy Eample(图源 [24])

  

我们发现 model pre-training 的结果,在测试任务上,在finetuning前后,绿色曲线也即预训练结果一直是一条水平线。因为我们在预训练的时候,给定了很多不同的 sin ⁡ \sin sin 函数,model pre-training 为了找到一个在所有任务上都效果较好的初始化结果,由于若干 sin ⁡ \sin sin 函数波峰和波谷重叠起来,基本就是一条水平线,因此使用这个初始化的结果取 finetuning ,得到的结果仍然是水平线。

而 MAML 的初始化结果是一条与原函数相差较大的曲线。随着 finetuning 的进行,得到的曲线越来越接近。

问题2:为何在 meta 网络赋值给具体训练任务(如任务 m m m)后,要先更新训练任务的参数,再计算梯度,更新 meta 网络?

问题3:在更新训练任务的网络时,只走了一步,然后更新 meta 网络。为什么是一步,可以是多步吗?

  • 只更新一次,速度比较快;因为meta learning中,子任务有很多,都更新很多次,训练时间比较久。
  • MAML希望得到的初始化参数在新的任务中finetuning的时候效果好。如果只更新一次,就可以在新任务上获取很好的表现。把这件事情当成目标,可以使得meta网络参数训练是很好(目标与需求一致)。
  • 当初始化参数应用到具体的任务中时,也可以finetuning很多次。
  • Few-shot learning 往往数据较少。

15.4.2.1 实战 拟合 y = a sin ⁡ ( x + b ) y=a \sin(x+b) y=asin(x+b)

我们上面讲解了李宏毅老师给出的 toy example:拟合 y = a sin ⁡ ( x + b ) y=a \sin(x+b) y=asin(x+b),这里简单实现一遍。

 In  [ 1 ] : \text { In }[1]:  In [1]:

import numpy as np
import matplotlib.pyplot as plt

 In  [ 2 ] : \text { In }[2]:  In [2]:

pi = np.pi
def sample_points(k):#k为对函数a*sin(x+b)在0到2π的采样点数
    a,b = np.random.uniform(0,2,2)
    x = np.arange(0,2*pi,2*pi/k)
    y = a*np.sin(x+b)
    return x,y,a,b
def draw_sin(a,b):
    x = np.arange(0,2*pi,0.1)
    y = a*np.sin(x+b)
    plt.plot(x,y)

 In  [ 3 ] : \text { In }[3]:  In [3]:

task_num = 10   #每个batch中含有的task,即一次梯度下降所含的task数目
points_num =10
alpha = 0.01   #子模型的学习率
beta = 0.01    #元学习初始化参数更新的学习率
a_init = np.random.normal()
b_init = np.random.normal()   #要更新的初始化参数的最初数值
epoch = 10000   #元学习模型更新次数

 In  [ 4 ] : \text { In }[4]:  In [4]:

for epoch_ in range(epoch):
    x_train = []
    y_train = []
    a_train = []
    b_train = []
    # 生成每个task的数据
    for i in range(task_num):
        x,y,a_,b_ = sample_points(points_num)
        x_train.append(x)
        y_train.append(y)
    a_gradient = 0
    b_gradient = 0   
    # 对每个task进行一次梯度下降,更新a,b,更新之后再计算一次梯度,并把这第二次的梯度累加,用来更新a_init和b_init
    loss = 0
    for i in range(task_num):
        a_0 = a_init
        b_0 = b_init   #梯度下降的初始值为元学习模型要学习的初始化的值
        x = x_train[i]
        y = y_train[i]  #第i个task的x和y
        y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
        a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
        b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
        #更新完后,再计算一次梯度,累加
        y_ = a_0*np.sin(x+b_0)
        loss += sum(np.square(y_-y))/points_num
        a_gradient += sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num
        b_gradient += sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
    a_init -= beta*a_gradient
    b_init -= beta*b_gradient
    if epoch_%1000==0:
        print("epoch:%d,loss:%f"%(epoch_,loss))

 Out  [ 4 ] : \text { Out }[4]:  Out [4]:

epoch:0,loss:5.782693
epoch:1000,loss:4.591905
epoch:2000,loss:2.454080
epoch:3000,loss:3.021873
epoch:4000,loss:3.729429
epoch:5000,loss:3.780468
epoch:6000,loss:2.573931
epoch:7000,loss:2.781857
epoch:8000,loss:2.733948
epoch:9000,loss:3.111584

对MAML学习到的a_init和b_init,进行0次梯度下降更新,直接画出,和新来的采样样本比较

 In  [ 5 ] : \text { In }[5]:  In [5]:

x,y,a_,b_ = sample_points(points_num)
draw_sin(a_,b_)
draw_sin(a_init,b_init)

 Out  [ 5 ] : \text { Out }[5]:  Out [5]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第12张图片

MAML学习的初始化参数,迭代1次后

 In  [ 6 ] : \text { In }[6]:  In [6]:

a_0 = a_init
b_0 = b_init   
for i in range(1):    
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 6 ] : \text { Out }[6]:  Out [6]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第13张图片

MAML学习的初始化参数,迭代10次

 In  [ 7 ] : \text { In }[7]:  In [7]:

a_0 = a_init
b_0 = b_init   
for i in range(10):
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 7 ] : \text { Out }[7]:  Out [7]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第14张图片

MAML学习的初始化参数,迭代100次

 In  [ 8 ] : \text { In }[8]:  In [8]:

a_0 = a_init
b_0 = b_init   
for i in range(100):
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 8 ] : \text { Out }[8]:  Out [8]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第15张图片

MAML学习的初始化参数,迭代500次

 In  [ 9 ] : \text { In }[9]:  In [9]:

a_0 = a_init
b_0 = b_init   
for i in range(500):
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 9 ] : \text { Out }[9]:  Out [9]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第16张图片

不进行MAML,随机生成a,b,进行0次梯度下降更新,直接画出,和新来的采样样本比较

 In  [ 10 ] : \text { In }[10]:  In [10]:

a = np.random.normal()
b = np.random.normal()
draw_sin(a_,b_)
draw_sin(a,b)

 Out  [ 10 ] : \text { Out }[10]:  Out [10]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第17张图片

不进行MAML,随机生成a,b,1次迭代

 In  [ 11 ] : \text { In }[11]:  In [11]:

a_0 = a
b_0 = b   
for i in range(1):    
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 11 ] : \text { Out }[11]:  Out [11]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第18张图片

不进行MAML,随机生成a,b,10次迭代

 In  [ 12 ] : \text { In }[12]:  In [12]:

a_0 = a
b_0 = b  
for i in range(10):    
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 12 ] : \text { Out }[12]:  Out [12]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第19张图片

不进行MAML,随机生成a,b,100次迭代

 In  [ 13 ] : \text { In }[13]:  In [13]:

a_0 = a
b_0 = b  
for i in range(100):    
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 13 ] : \text { Out }[13]:  Out [13]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第20张图片

不进行MAML,随机生成a,b,500次迭代

 In  [ 14 ] : \text { In }[14]:  In [14]:

a_0 = a
b_0 = b  
for i in range(500):    
    y_ = a_0*np.sin(x+b_0)  #通过参数a,b对y的预测值
    a_0 = a_0 - sum(2*alpha*(y_-y)*np.sin(x+b_0))/points_num #MSE损失,复合函数求导
    b_0 = b_0 - sum(2*alpha*a_0*(y_-y)*np.cos(x+b_0))/points_num
draw_sin(a_,b_)
draw_sin(a_0,b_0)

 Out  [ 14 ] : \text { Out }[14]:  Out [14]:

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第21张图片

15.4.2.2 First-Order MAML

           \,\,\,\,\,\,\,\,\,\, 上面的元优化过程依赖于二阶导数(多次迭代)。而为了加快计算,简化实现过程,一个忽略了二阶项的简化版MAML被提出了,称为 First-Order MAML (FOMAML)

           \,\,\,\,\,\,\,\,\,\, 让我们来考虑一下执行 k k k 次内循环(微调过程)梯度下降的过程( k ≥ 1 k\geq1 k1)。假设一开始的模型参数为 θ meta \theta_\text{meta} θmeta

θ 0 = θ meta θ 1 = θ 0 − α ∇ θ L ( 0 ) ( θ 0 ) θ 2 = θ 1 − α ∇ θ L ( 0 ) ( θ 1 ) … θ k = θ k − 1 − α ∇ θ L ( 0 ) ( θ k − 1 ) \begin{aligned} \theta_0 &= \theta_\text{meta}\\ \theta_1 &= \theta_0 - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_0)\\ \theta_2 &= \theta_1 - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_1)\\ &\dots\\ \theta_k &= \theta_{k-1} - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_{k-1}) \end{aligned} θ0θ1θ2θk=θmeta=θ0αθL(0)(θ0)=θ1αθL(0)(θ1)=θk1αθL(0)(θk1)

而在外循环中,我们采样一个新的数据batch用于更新元目标。

θ meta ← θ meta − β g MAML ; update for meta-objective where  g MAML = ∇ θ L ( 1 ) ( θ k ) = ∇ θ k L ( 1 ) ( θ k ) ⋅ ( ∇ θ k − 1 θ k ) … ( ∇ θ 0 θ 1 ) ⋅ ( ∇ θ θ 0 ) ; following the chain rule = ∇ θ k L ( 1 ) ( θ k ) ⋅ ( ∏ i = 1 k ∇ θ i − 1 θ i ) ⋅ I = ∇ θ k L ( 1 ) ( θ k ) ⋅ ∏ i = 1 k ∇ θ i − 1 ( θ i − 1 − α ∇ θ L ( 0 ) ( θ i − 1 ) ) = ∇ θ k L ( 1 ) ( θ k ) ⋅ ∏ i = 1 k ( I − α ∇ θ i − 1 ( ∇ θ L ( 0 ) ( θ i − 1 ) ) ) \begin{aligned} \theta_\text{meta} &\leftarrow \theta_\text{meta} - \beta g_\text{MAML} & \scriptstyle{\text{; update for meta-objective}} \\[2mm] \text{where } g_\text{MAML} &= \nabla_{\theta} \mathcal{L}^{(1)}(\theta_k) &\\[2mm] &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot (\nabla_{\theta_{k-1}} \theta_k) \dots (\nabla_{\theta_0} \theta_1) \cdot (\nabla_{\theta} \theta_0) & \scriptstyle{\text{; following the chain rule}} \\ &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \Big( \prod_{i=1}^k \nabla_{\theta_{i-1}} \theta_i \Big) \cdot I & \\ &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \prod_{i=1}^k \nabla_{\theta_{i-1}} (\theta_{i-1} - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_{i-1})) & \\ &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \prod_{i=1}^k (I - \alpha\nabla_{\theta_{i-1}}(\nabla_\theta\mathcal{L}^{(0)}(\theta_{i-1}))) & \end{aligned} θmetawhere gMAMLθmetaβgMAML=θL(1)(θk)=θkL(1)(θk)(θk1θk)(θ0θ1)(θθ0)=θkL(1)(θk)(i=1kθi1θi)I=θkL(1)(θk)i=1kθi1(θi1αθL(0)(θi1))=θkL(1)(θk)i=1k(Iαθi1(θL(0)(θi1))); update for meta-objective; following the chain rule

MAML的梯度是:

g MAML = ∇ θ k L ( 1 ) ( θ k ) ⋅ ∏ i = 1 k ( I − α ∇ θ i − 1 ( ∇ θ L ( 0 ) ( θ i − 1 ) ) ) g_\text{MAML} = \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \prod_{i=1}^k (I - \alpha \color{red}{\nabla_{\theta_{i-1}}(\nabla_\theta\mathcal{L}^{(0)}(\theta_{i-1}))}) gMAML=θkL(1)(θk)i=1k(Iαθi1(θL(0)(θi1)))

一阶 MAML 忽略了用红色标记的二阶导数部分。它被简化为了下式,等价于最后一次内循环梯度更新的结果。

g FOMAML = ∇ θ k L ( 1 ) ( θ k ) g_\text{FOMAML} = \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) gFOMAML=θkL(1)(θk)

15.4.2 Reptile

           \,\,\,\,\,\,\,\,\,\, Reptile Nichol, Achiam & Schulman, 2018(https://arxiv.org/abs/1803.02999) 是一个超级简单的元学习优化算法。它跟 MAML 类似,它们都靠梯度下降进行元优化,而且都是模型无关的算法。

Reptiled 的执行流程如下:

  1. 采样一个任务;
  2. 在这个任务上进行多次梯度下降;
  3. 把模型参数向新参数靠近。
一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第22张图片

如下图中算法所示: 给定初始参数 θ \theta θ SGD ( L T i , θ , k ) \text{SGD}(\mathcal{L}_{\mathcal T_i}, \theta, k) SGD(LTi,θ,k) 根据 loss L T i \mathcal{L}_{\mathcal T_i} LTi 进行 k k k 次随机梯度下降,之后返回参数向量。带batch的版本则每次采样多个任务。Reptile的梯度定义为 ( θ − W ) / α (\theta - W)/\alpha (θW)/α,其中 α \alpha α 是 SGD 所使用的步长。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第23张图片
图 15.13 Batch 版本的 Reptile 算法. (图像来源:原论文[13])

一眼看上去,这个算法跟普通的 SGD 很像。但是,因为内循环里的梯度下降可以发生好多次,使得 SGD ( E T [ L T ] , θ , k ) \text{SGD}(\mathbb{E} _\mathcal T[\mathcal{L}_{\mathcal T}], \theta, k) SGD(ET[LT],θ,k) E T [ SGD ( L T , θ , k ) ] \mathbb{E}_\mathcal T [\text{SGD}(\mathcal{L}_{\mathcal T}, \theta, k)] ET[SGD(LT,θ,k)] 在 k > 1 时产生了区别。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第24张图片
图 15.14 Reptile 的训练过程 [图源[28]]

在 Reptile 中:

  • 训练任务的网络可以更新多次;
  • reptile 不再像 MAML 一样计算梯度(因此带来了工程性能的提升),而是直接用一个参数 ϵ \epsilon ϵ 乘以 meta 网络与训练任务的网络参数的差来更新 meta 网络参数;
  • 从效果上来看,Reptile 效果与 MAML 基本持平。

15.4.2.1 The Optimization Assumption

           \,\,\,\,\,\,\,\,\,\, 假设任务 T ∼ p ( T ) \mathcal T \sim p(\mathcal T) Tp(T) 有一个最优的模型参数空间构成的流形 W T ∗ \mathcal{W}_{\mathcal T}^* WT 。 当参数 θ \theta θ 处于这个流形 W T ∗ \mathcal{W}_{\mathcal T}^* WT 上面的时候,模型 f θ f_\theta fθ 能够在任务 T \mathcal T T 上达到最好的效果。为了找到一个对于所有任务都足够好的模型,我们想要找一个靠近所有任务的最优流形的参数,即:

θ ∗ = arg ⁡ min ⁡ θ E T ∼ p ( T ) [ 1 2 dist ( θ , W T ∗ ) 2 ] \theta^* = \arg\min_\theta \mathbb{E}_{\mathcal T \sim p(\mathcal T)} [\frac{1}{2} \text{dist}(\theta, \mathcal{W}_\mathcal T^*)^2] θ=argθminETp(T)[21dist(θ,WT)2]

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第25张图片
图 15.15 为了靠近不同任务的最优流形,Reptile 算法在交替更新参数。 (图像来源:[原论文https://arxiv.org/abs/1803.02999]

  

我们设 dist ( . ) \text{dist}(.) dist(.) 为 L2 距离,并定义一个点 θ \theta θ 和一个集合 W T ∗ \mathcal{W}_\mathcal T^* WT 之间的距离等价于 θ \theta θ 和一个该流形上最接近 θ \theta θ 的点 W T ∗ ( θ ) W_{\mathcal T}^*(\theta) WT(θ) 的距离。

dist ( θ , W T ∗ ) = dist ( θ , W T ∗ ( θ ) ) , where  W T ∗ ( θ ) = arg ⁡ min ⁡ W ∈ W T ∗ dist ( θ , W ) \text{dist}(\theta, \mathcal{W}_{\mathcal T}^*) = \text{dist}(\theta, W_{\mathcal T}^*(\theta)) \text{, where }W_{\mathcal T}^*(\theta) = \arg\min_{W\in\mathcal{W}_{\mathcal T}^*} \text{dist}(\theta, W) dist(θ,WT)=dist(θ,WT(θ)), where WT(θ)=argWWTmindist(θ,W)

欧拉距离平方的梯度为:

∇ θ [ 1 2 dist ( θ , W T i ∗ ) 2 ] = ∇ θ [ 1 2 dist ( θ , W T i ∗ ( θ ) ) 2 ] = ∇ θ [ 1 2 ( θ − W T i ∗ ( θ ) ) 2 ] = θ − W T i ∗ ( θ ) ; See notes. \begin{aligned} \nabla_\theta[\frac{1}{2}\text{dist}(\theta, \mathcal{W}_{\mathcal T_i}^*)^2] &= \nabla_\theta[\frac{1}{2}\text{dist}(\theta, W_{\mathcal T_i}^*(\theta))^2] & \\ &= \nabla_\theta[\frac{1}{2}(\theta - W_{\mathcal T_i}^*(\theta))^2] & \\ &= \theta - W_{\mathcal T_i}^*(\theta) & \scriptstyle{\text{; See notes.}} \end{aligned} θ[21dist(θ,WTi)2]=θ[21dist(θ,WTi(θ))2]=θ[21(θWTi(θ))2]=θWTi(θ); See notes.

注意:根据原论文,“一个点 Θ 和一个集合 S 的欧拉距离平方的梯度为 2(Θ − p),其中 p 是 S 中离 Θ 最近的点“。理论上来说,S 中最靠近 Θ 的点应该也是一个 Θ 的函数,但我不确定为什么计算梯度的时候不需要担心 p 的导数。(如果有什么想法欢迎讨论。)

因此,一个随机梯度下降的更新步骤为:

θ = θ − α ∇ θ [ 1 2 dist ( θ , W T i ∗ ) 2 ] = θ − α ( θ − W T i ∗ ( θ ) ) = ( 1 − α ) θ + α W T i ∗ ( θ ) \theta = \theta - \alpha \nabla_\theta[\frac{1}{2} \text{dist}(\theta, \mathcal{W}_{\mathcal T_i}^*)^2] = \theta - \alpha(\theta - W_{\mathcal T_i}^*(\theta)) = (1-\alpha)\theta + \alpha W_{\mathcal T_i}^*(\theta) θ=θαθ[21dist(θ,WTi)2]=θα(θWTi(θ))=(1α)θ+αWTi(θ)

虽然很难精确计算出任务最优流形上的最近点 W T i ∗ ( θ ) W_{\mathcal T_i}^*(\theta) WTi(θ) ,但Reptile 可以根据 SGD ( L T , θ , k ) \text{SGD}(\mathcal{L}_\mathcal T, \theta, k) SGD(LT,θ,k) 拟合出来。

15.4.2.2 Reptile vs FOMAML

为了说明 Reptile 和 MAML 的深层联系,我们用一个做了两步梯度下降的更新公式做例子,即 SGD ( . ) \text{SGD}(.) SGD(.) k = 2 k=2 k=2。 和上面定义的一样, L ( 0 ) \mathcal{L}^{(0)} L(0) L ( 1 ) \mathcal{L}^{(1)} L(1) 只是不太batch对应的loss。为了方便阅读,我们使用两个记号: g j ( i ) = ∇ θ L ( i ) ( θ j ) g^{(i)}_j = \nabla_{\theta} \mathcal{L}^{(i)}(\theta_j) gj(i)=θL(i)(θj) H j ( i ) = ∇ θ 2 L ( i ) ( θ j ) H^{(i)}_j = \nabla^2_{\theta} \mathcal{L}^{(i)}(\theta_j) Hj(i)=θ2L(i)(θj)

θ 0 = θ meta θ 1 = θ 0 − α ∇ θ L ( 0 ) ( θ 0 ) = θ 0 − α g 0 ( 0 ) θ 2 = θ 1 − α ∇ θ L ( 1 ) ( θ 1 ) = θ 0 − α g 0 ( 0 ) − α g 1 ( 1 ) \begin{aligned} \theta_0 &= \theta_\text{meta}\\ \theta_1 &= \theta_0 - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_0)= \theta_0 - \alpha g^{(0)}_0 \\ \theta_2 &= \theta_1 - \alpha\nabla_\theta\mathcal{L}^{(1)}(\theta_1) = \theta_0 - \alpha g^{(0)}_0 - \alpha g^{(1)}_1 \end{aligned} θ0θ1θ2=θmeta=θ0αθL(0)(θ0)=θ0αg0(0)=θ1αθL(1)(θ1)=θ0αg0(0)αg1(1)

如前面章节所述,FOMAML 的梯度是最后一次内循环梯度更新的结果。因此,当 k = 1 k=1 k=1 时:

g FOMAML = ∇ θ 1 L ( 1 ) ( θ 1 ) = g 1 ( 1 ) g MAML = ∇ θ 1 L ( 1 ) ( θ 1 ) ⋅ ( I − α ∇ θ 2 L ( 0 ) ( θ 0 ) ) = g 1 ( 1 ) − α H 0 ( 0 ) g 1 ( 1 ) \begin{aligned} g_\text{FOMAML} &= \nabla_{\theta_1} \mathcal{L}^{(1)}(\theta_1) = g^{(1)}_1 \\ g_\text{MAML} &= \nabla_{\theta_1} \mathcal{L}^{(1)}(\theta_1) \cdot (I - \alpha\nabla^2_{\theta} \mathcal{L}^{(0)}(\theta_0)) = g^{(1)}_1 - \alpha H^{(0)}_0 g^{(1)}_1 \end{aligned} gFOMAMLgMAML=θ1L(1)(θ1)=g1(1)=θ1L(1)(θ1)(Iαθ2L(0)(θ0))=g1(1)αH0(0)g1(1)

Reptile 的梯度则定义为:

g Reptile = ( θ 0 − θ 2 ) / α = g 0 ( 0 ) + g 1 ( 1 ) g_\text{Reptile} = (\theta_0 - \theta_2) / \alpha = g^{(0)}_0 + g^{(1)}_1 gReptile=(θ0θ2)/α=g0(0)+g1(1)

现在,我们可以得到:


图 15.16 Reptile 和 FOMAML 在一次外循环里的元优化方式对比. (图像来源:slides(https://www.slideshare.net/YoonhoLee4/on-firstorder-metalearning-algorithms)

  

g FOMAML = g 1 ( 1 ) g MAML = g 1 ( 1 ) − α H 0 ( 0 ) g 1 ( 1 ) g Reptile = g 0 ( 0 ) + g 1 ( 1 ) \begin{aligned} g_\text{FOMAML} &= g^{(1)}_1 \\ g_\text{MAML} &= g^{(1)}_1 - \alpha H^{(0)}_0 g^{(1)}_1 \\ g_\text{Reptile} &= g^{(0)}_0 + g^{(1)}_1 \end{aligned} gFOMAMLgMAMLgReptile=g1(1)=g1(1)αH0(0)g1(1)=g0(0)+g1(1)

接下来,我们对 g 1 ( 1 ) g^{(1)}_1 g1(1) 使用泰勒展开 。对一个可微函数 f ( x ) f(x) f(x) 进行 a a a 阶展开的式子为:

f ( x ) = f ( a ) + f ′ ( a ) 1 ! ( x − a ) + f ′ ′ ( a ) 2 ! ( x − a ) 2 + ⋯ = ∑ i = 0 ∞ f ( i ) ( a ) i ! ( x − a ) i f(x) = f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)^2 + \dots = \sum_{i=0}^\infty \frac{f^{(i)}(a)}{i!}(x-a)^i f(x)=f(a)+1!f(a)(xa)+2!f(a)(xa)2+=i=0i!f(i)(a)(xa)i

我们把 ∇ θ L ( 1 ) ( . ) \nabla_{\theta}\mathcal{L}^{(1)}(.) θL(1)(.) 看做一个函数,把 θ 0 \theta_0 θ0 看做自变量。 g 1 ( 1 ) g_1^{(1)} g1(1) θ 0 \theta_0 θ0 处的泰勒展开为:

g 1 ( 1 ) = ∇ θ L ( 1 ) ( θ 1 ) = ∇ θ L ( 1 ) ( θ 0 ) + ∇ θ 2 L ( 1 ) ( θ 0 ) ( θ 1 − θ 0 ) + 1 2 ∇ θ 3 L ( 1 ) ( θ 0 ) ( θ 1 − θ 0 ) 2 + … = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + α 2 2 ∇ θ 3 L ( 1 ) ( θ 0 ) ( g 0 ( 0 ) ) 2 + … ; because  θ 1 − θ 0 = − α g 0 ( 0 ) = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) \begin{aligned} g_1^{(1)} &= \nabla_{\theta}\mathcal{L}^{(1)}(\theta_1) \\ &= \nabla_{\theta}\mathcal{L}^{(1)}(\theta_0) + \nabla^2_\theta\mathcal{L}^{(1)}(\theta_0)(\theta_1 - \theta_0) + \frac{1}{2}\nabla^3_\theta\mathcal{L}^{(1)}(\theta_0)(\theta_1 - \theta_0)^2 + \dots & \\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + \frac{\alpha^2}{2}\nabla^3_\theta\mathcal{L}^{(1)}(\theta_0) (g_0^{(0)})^2 + \dots & \scriptstyle{\text{; because }\theta_1-\theta_0=-\alpha g_0^{(0)}} \\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2) \end{aligned} g1(1)=θL(1)(θ1)=θL(1)(θ0)+θ2L(1)(θ0)(θ1θ0)+21θ3L(1)(θ0)(θ1θ0)2+=g0(1)αH0(1)g0(0)+2α2θ3L(1)(θ0)(g0(0))2+=g0(1)αH0(1)g0(0)+O(α2); because θ1θ0=αg0(0)

把 MAML 的一步内循环梯度更新用 g 1 ( 1 ) g_1^{(1)} g1(1) 的展开式重写:

g FOMAML = g 1 ( 1 ) = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) g MAML = g 1 ( 1 ) − α H 0 ( 0 ) g 1 ( 1 ) = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) − α H 0 ( 0 ) ( g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) ) = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) − α H 0 ( 0 ) g 0 ( 1 ) + α 2 α H 0 ( 0 ) H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) − α H 0 ( 0 ) g 0 ( 1 ) + O ( α 2 ) \begin{aligned} g_\text{FOMAML} &= g^{(1)}_1 = g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2)\\ g_\text{MAML} &= g^{(1)}_1 - \alpha H^{(0)}_0 g^{(1)}_1 \\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2) - \alpha H^{(0)}_0 (g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2))\\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} - \alpha H^{(0)}_0 g_0^{(1)} + \alpha^2 \alpha H^{(0)}_0 H^{(1)}_0 g_0^{(0)} + O(\alpha^2)\\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} - \alpha H^{(0)}_0 g_0^{(1)} + O(\alpha^2) \end{aligned} gFOMAMLgMAML=g1(1)=g0(1)αH0(1)g0(0)+O(α2)=g1(1)αH0(0)g1(1)=g0(1)αH0(1)g0(0)+O(α2)αH0(0)(g0(1)αH0(1)g0(0)+O(α2))=g0(1)αH0(1)g0(0)αH0(0)g0(1)+α2αH0(0)H0(1)g0(0)+O(α2)=g0(1)αH0(1)g0(0)αH0(0)g0(1)+O(α2)

Reptile的梯度变为:

g Reptile = g 0 ( 0 ) + g 1 ( 1 ) = g 0 ( 0 ) + g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) \begin{aligned} g_\text{Reptile} &= g^{(0)}_0 + g^{(1)}_1 \\ &= g^{(0)}_0 + g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2) \end{aligned} gReptile=g0(0)+g1(1)=g0(0)+g0(1)αH0(1)g0(0)+O(α2)

现在,我们有了三种不同的梯度更新法则:

g FOMAML = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) g MAML = g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) − α H 0 ( 0 ) g 0 ( 1 ) + O ( α 2 ) g Reptile = g 0 ( 0 ) + g 0 ( 1 ) − α H 0 ( 1 ) g 0 ( 0 ) + O ( α 2 ) \begin{aligned} g_\text{FOMAML} &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2)\\ g_\text{MAML} &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} - \alpha H^{(0)}_0 g_0^{(1)} + O(\alpha^2)\\ g_\text{Reptile} &= g^{(0)}_0 + g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha^2) \end{aligned} gFOMAMLgMAMLgReptile=g0(1)αH0(1)g0(0)+O(α2)=g0(1)αH0(1)g0(0)αH0(0)g0(1)+O(α2)=g0(0)+g0(1)αH0(1)g0(0)+O(α2)

在训练过程中,我们经常会对多个数据batch做平均。在我们的例子中,小batch (0) 和 (1)是可交换的, 因为他们都是随机选取的。期望 E T , 0 , 1 \mathbb{E}_{\mathcal T,0,1} ET,0,1 表示在任务 T \mathcal T T上,两个标号为 (0) 和 (1) 的数据batch的平均值。

令,

  • A = E T , 0 , 1 [ g 0 ( 0 ) ] = E T , 0 , 1 [ g 0 ( 1 ) ] A = \mathbb{E}_{\mathcal T,0,1} [g_0^{(0)}] = \mathbb{E}_{\mathcal T,0,1} [g_0^{(1)}] A=ET,0,1[g0(0)]=ET,0,1[g0(1)] ; 代表着任务loss的平均梯度。沿着 A A A 代表的方向更新模型,能够使模型在当前任务上的表现更好。
  • B = E T , 0 , 1 [ H 0 ( 1 ) g 0 ( 0 ) ] = 1 2 E T , 0 , 1 [ H 0 ( 1 ) g 0 ( 0 ) + H 0 ( 0 ) g 0 ( 1 ) ] = 1 2 E T , 0 , 1 [ ∇ θ ( g 0 ( 0 ) g 0 ( 1 ) ) ] B = \mathbb{E}_{\mathcal T,0,1} [H^{(1)}_0 g_0^{(0)}] = \frac{1}{2}\mathbb{E}_{\mathcal T,0,1} [H^{(1)}_0 g_0^{(0)} + H^{(0)}_0 g_0^{(1)}] = \frac{1}{2}\mathbb{E}_{\mathcal T,0,1} [\nabla_\theta(g^{(0)}_0 g_0^{(1)})] B=ET,0,1[H0(1)g0(0)]=21ET,0,1[H0(1)g0(0)+H0(0)g0(1)]=21ET,0,1[θ(g0(0)g0(1))] ; 代表着增加同个任务上两个小batch梯度的内积的方向。沿着 B B B 代表的方向更新模型,能够使得模型在当前任务上具有更好的泛化性。

综上所述, MAML 和 Reptile 的优化目标相同,都是更好的任务表现(由 A 主导)和更好的泛化能力(由 B 主导)。当梯度更新由泰勒展开的前三项近似时:

E T , 1 , 2 [ g FOMAML ] = A − α B + O ( α 2 ) E T , 1 , 2 [ g MAML ] = A − 2 α B + O ( α 2 ) E T , 1 , 2 [ g Reptile ] = 2 A − α B + O ( α 2 ) \begin{aligned} \mathbb{E}_{\mathcal T,1,2}[g_\text{FOMAML}] &= A - \alpha B + O(\alpha^2)\\ \mathbb{E}_{\mathcal T,1,2}[g_\text{MAML}] &= A - 2\alpha B + O(\alpha^2)\\ \mathbb{E}_{\mathcal T,1,2}[g_\text{Reptile}] &= 2A - \alpha B + O(\alpha^2) \end{aligned} ET,1,2[gFOMAML]ET,1,2[gMAML]ET,1,2[gReptile]=AαB+O(α2)=A2αB+O(α2)=2AαB+O(α2)

虽然我们没法确定忽略的 O ( α 2 ) O(\alpha^2) O(α2) 项是否对于参数更新有着重要作用。但根据 FOMAML 与 MAML 的表现相近来看,说高阶导数对于梯度更新不太重要还是比较靠谱的。

15.4.3 LSTM Meta-Learner

Ravi & Larochelle (2017)(https://openreview.net/pdf?id=rJY0-Kcll)把优化算法显式的建模出来,并命名为“元学习器”,原本处理任务的模型被称为“学习器”。元学习器的目标是使用少量支持集在仅仅几步之内快速更新学习器的参数,使得学习器能够快速适应新任务。

我们用 M θ M_\theta Mθ 代表参数为 θ \theta θ 的学习器,用 R Θ R_\Theta RΘ 代表参数为 Θ \Theta Θ 的元学习器,loss函数为 L \mathcal{L} L .

❑ ❑ 为什么使用 LSTM?

之所以使用 LSTM 作为元学习器的模型,有这样几点原因:

  1. 反向传播中基于梯度的更新跟 LSTM 中 cell 状态的更新有相似之处。
  2. 知道之前的梯度对当前的梯度更新有好处。可以参考 momentum(http://ruder.io/optimizing-gradient-descent/index.html#momentum) 的原理。

第t步时,设定学习率为 α t \alpha_t αt,更新学习器的参数:

θ t = θ t − 1 − α t ∇ θ t − 1 L t \theta_t = \theta_{t-1} - \alpha_t \nabla_{\theta_{t-1}}\mathcal{L}_t θt=θt1αtθt1Lt
这个过程跟 LSTM 的 cell 状态更新具有相同的形式。如果我们令遗忘门 f t = 1 f_t=1 ft=1,输入门 i t = α t i_t = \alpha_t it=αt, cell 状态 c t = θ t c_t = \theta_t ct=θt , 新 cell 状态 c ~ t = − ∇ θ t − 1 L t \tilde{c}_t = -\nabla_{\theta_{t-1}}\mathcal{L}_t c~t=θt1Lt,则:

c t = f t ⊙ c t − 1 + i t ⊙ c ~ t = θ t − 1 − α t ∇ θ t − 1 L t \begin{aligned} c_t &= f_t \odot c_{t-1} + i_t \odot \tilde{c}_t\\ &= \theta_{t-1} - \alpha_t\nabla_{\theta_{t-1}}\mathcal{L}_t \end{aligned} ct=ftct1+itc~t=θt1αtθt1Lt

但是固定 f t = 1 f_t=1 ft=1 i t = α t i_t=\alpha_t it=αt 可能并不是最好的,我们可以让他们随数据集变化而变化,由学习得到。

f t = σ ( W f ⋅ [ ∇ θ t − 1 L t , L t , θ t − 1 , f t − 1 ] + b f ) ; how much to forget the old value of parameters. i t = σ ( W i ⋅ [ ∇ θ t − 1 L t , L t , θ t − 1 , i t − 1 ] + b i ) ; corresponding to the learning rate at time step t. θ ~ t = − ∇ θ t − 1 L t θ t = f t ⊙ θ t − 1 + i t ⊙ θ ~ t \begin{aligned} f_t &= \sigma(\mathbf{W}_f \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, f_{t-1}] + \mathbf{b}_f) & \scriptstyle{\text{; how much to forget the old value of parameters.}}\\ i_t &= \sigma(\mathbf{W}_i \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, i_{t-1}] + \mathbf{b}_i) & \scriptstyle{\text{; corresponding to the learning rate at time step t.}}\\ \tilde{\theta}_t &= -\nabla_{\theta_{t-1}}\mathcal{L}_t &\\ \theta_t &= f_t \odot \theta_{t-1} + i_t \odot \tilde{\theta}_t &\\ \end{aligned} ftitθ~tθt=σ(Wf[θt1Lt,Lt,θt1,ft1]+bf)=σ(Wi[θt1Lt,Lt,θt1,it1]+bi)=θt1Lt=ftθt1+itθ~t; how much to forget the old value of parameters.; corresponding to the learning rate at time step t.

❑ ❑ Model Setup


图 15.17 如何训练学习器 $M_\theta$ 和元学习器 $R_\Theta$. (图像来源:[原论文](https://openreview.net/pdf?id=rJY0-Kcll)

  

在 Matching Networks(https://wei-tianhao.github.io/blog/2019/09/17/meta-learning.html#matching-networks)中我们已经证明了用模仿测试过程的方式训练能够取得很好的效果,这里也用了类似的方法。在每个训练阶段,我们先采样一个数据集 D = ( D train , D test ) ∈ D ^ meta-train \mathcal{D} = (\mathcal{D}_\text{train}, \mathcal{D}_\text{test}) \in \hat{\mathcal{D}}_\text{meta-train} D=(Dtrain,Dtest)D^meta-train,再从 D train \mathcal{D}_\text{train} Dtrain 中采样 T T T 轮 mini-batches 用于更新 θ \theta θ。学习器参数的最终状态 θ T \theta_T θT被用来在测试数据 D test \mathcal{D}_\text{test} Dtest 上训练元学习器。

有两个实现的细节需要注意一下:

  1. 如何压缩 LSTM 元学习的参数空间?元学习器是在建模一个神经网络的参数,所以有上百万个变量要学。为了减小元学习器的参数空间,这篇文章借鉴了共享参数(https://arxiv.org/abs/1606.04474)的方法。元学习器本质上学习的是一种更新原则,即如何根据一个参数的值和其梯度生成这个参数的新值(比如一阶方法,牛顿法等),与参数在学习器中的位置无关。所以我们可以假设所有参数的更新原则都是一样的,即元学习只需要输出一维变量即可。
  2. 为了简化训练过程,元学习器假设损失函数 L t \mathcal{L}_t Lt 和梯度 ∇ θ t − 1 L t \nabla_{\theta_{t-1}} \mathcal{L}_t θt1Lt 是独立的。

一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述_第26张图片


剩余章节详见一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (下)万字中文综述(待更)

    15.5 基于度量的方法
      15.5.1 Convolutional Siamese Neural Network
      15.5.2 Matching Networks
         15.5.2.1 Simple Embedding
         15.5.2.2 Full Context Embeddings
      15.5.3 Relation Network
      15.5.4 Prototypical Networks
    15.6 基于模型的方法
      15.6.1 Memory-Augmented Neural Networks
         15.6.1.1 MANN for Meta-Learning
         15.6.1.2 Addressing Mechanism for Meta-Learning
      15.6.2 Meta Networks
         15.6.2.1 Fast Weights
         15.6.2.2 Model Components
         15.6.2.3 训练过程
    15.7 元学习应用
      15.7.1 计算机视觉和图形
      15.7.2 元强化学习和机器人技术
      15.7.3 环境学习与模拟现实
      15.7.4 神经架构搜索(NAS)
      15.7.5 贝叶斯元学习
      15.7.6 无监督元学习和元学习无监督学习
      15.7.7 主动学习
      15.7.8 持续、在线和适应性学习
      15.7.9 领域适应和领域概括
      15.7.10 超参数优化
      15.7.11 新颖且生物学上可信的学习者
      15.7.12 语言和言语
      15.7.13 元学习促进社会福利
      15.7.14 抽象和合成推理
      15.7.15 系统
    15.8 未来展望
    15.9 参考资料


15.9 参考资料

[1] Brenden M. Lake, Ruslan Salakhutdinov, and Joshua B. Tenenbaum. Human-level concept learning through probabilistic program induction.Science 350.6266 (2015): 1332-1338.
https://ww

你可能感兴趣的:(《繁凡的深度学习笔记》,Meta,Learing,元学习,元学习,人工智能)