MAML元学习框架||与模型无关的元学习

论文翻译:https://blog.csdn.net/weixin_41803874/article/details/91454944

目录

一:深度学习之MAML笔记

二:学习如何学习的算法:简述元学习研究方向现状

三:与模型无关的元学习,一种可推广到各类任务的元学习方法


2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019

元学习小样本学习论文总结200篇

 [email protected]申请下载

一:深度学习之MAML笔记


二:学习如何学习的算法:简述元学习研究方向现状

  • 原文(英文)

要想实现足够聪明的人工智能,算法必须学会如何学习。很多研究者们曾对此提出过不同的解决方案,其中包括 UC Berkeley 的研究人员提出的与模型无关的元学习(MAML)方法。本文将以 MAML 为例对目前的元学习方向进行简要介绍。

对我而言,第一次听到元学习的预述时,是一个极其兴奋的过程:建立不仅能够进行学习,还能学会如何进行学习的机器项目。元学习试图开发出可以根据性能信号做出响应,从而对结构基础层次以及参数空间进行修改的算法,这些算法在新环境中可以利用之前积累的经验。简言之:当未来主义者们编织通用 AI 的梦想时,这些算法是实现梦想必不可少的组成部分。

本文的目的在于将这个问题的高度降低,从我们想得到的、自我修正算法做得到的事情出发,到这个领域现在的发展状况:算法取得的成就、局限性,以及我们离强大的多任务智能有多远。

为什么人类可以做到这些事?

具体地讲:在许多强化学习任务中,和人类花费的时间相比,算法需要花费惊人的时间对任务进行学习;在玩 Atari 游戏时,机器需要 83 小时(或 1800 万帧)才能有人类几小时就能有的表现。

MAML元学习框架||与模型无关的元学习_第1张图片

来自近期 Rainbow RL 论文中的图片

这种差异导致机器学习研究人员将问题设计为:人类大脑中针对这项任务使用的工具和能力是什么,以及我们如何用统计和信息理论的方法转化这些工具。针对该问题,元学习研究人员提出了两种主要理论,这两种理论大致与这些工具相关。

  • 学习的先验:人类可以很快地学会新任务是因为我们可以利用在过去的任务中学到的信息,比如物体在空间里移动的直观的物理知识,或者是在游戏中掉血得到的奖励会比较低这样的元知识。

  • 学习的策略:在我们的生活中(也许是从进化时间上讲的),我们收集的不仅是关于这个世界对象级的信息,还生成了一种神经结构,这种神经结构在将输入转化为输出或策略的问题上的效率更高,即使是在新环境中也不例外

显然,这两个想法并非互相排斥,在这两个想法间也没有严格的界限:一些与现在的世界交互的硬编码策略可能是基于这个世界的深度先验的,例如(至少就本文而言)这个世界是有因果结构的。也就是说,我认为这个世界上的事情都可以用这两个标签分开,而且可以将这两个标签看作相关轴的极点。


不要丢弃我的(单)样本(Not Throwing Away My (One) Shot(小样本学习任务)

在深入探讨元学习之前,了解单样本学习相关领域的一些概念是很有用的。元学习的问题在于「我该如何建立一个可以很快学习新任务的模型」,而单样本学习的问题在于「我该如何建立一个在看过一类的一个样本后,就能学会该如何将这一类分出来的模型」。

让我们从概念上思考一下:是什么让单样本学习变得困难?如果我们仅用相关类别的一个样本试着训练一个原始模型,这个模型几乎肯定会过拟合。如果一个模型只看过一幅图,比如数字 3,这个模型就无法理解一张图经过什么样的像素变化,仍然保持 3 的基本特征。例如,如果这个模型只显示了下面这列数字的前三个样本,它怎么会知道第二个 3 是同一类的一个样本呢?理论上讲,在网络学习中,我们想要的类别标签有可能与字母的粗细程度有关吗?对我们而言做出这样的推断这很傻,但是在只有一个「3」的样本的情况下,想让神经网络能做出这样的推理就很困难了。

有更多样本会有助于解决这一问题,因为我们可以学习一张图中什么样的特征可以定义其主要特征——两个凸的形状,大部分是垂直的方向,以及无关紧要的改变——线的粗细、还有角度。为了成功实现单样本学习,我们不得不激励网络,在没有给出每一个数字间差别的情况下,学习什么样的表征可以将一个数字从其他数字中区别出来。

单样本学习的常用技术是学习一个嵌入空间,在这个空间中计算出两个样本表征间的欧几里德相似性,这能很好地计算出这两个样本是否属于同一类。直观地讲,这需要学习分布中类别间差异的内部维度(在我的样本中,分布在数字中),并学习如何将输入压缩和转换成那些最相关的维度。

我发现记住这个问题是一个很有用的基础,尽管不是学习如何总结存在于类别分布中的碎片化信息和模式,而是学习存在于任务中的类的分布规律,每一类都有自己的内部结构或目标。


如果要从最抽象开始,构造一个神经网络元参数的等级,会有点像这样:(三种元学习的思路?)

  • 通过使用超参数梯度下降,网络从任务的全部分布中学习到有用的表征。MAML 和 Reptile 是有关于此的直接的好例子,分享层级结构的元学习是一种有趣的方法,这种方法可以通过主策略的控制学习到清晰的子策略作为表征。

  • 网络学习要优化梯度下降的参数(这里是模型的参数,上一点是超参数?。这些参数就像是学习率、动量以及权重之于自适应学习率算法。我们在此沿着修改学习算法本身的轨道修改参数,但是有局限性。这就是 Learning to Learn By Gradient Descent by Gradient Descent 所做的。是的,这就是这篇文章真正的标题。

  • 一个学习内部优化器的网络,内部优化器本身就是一个网络。也就是说,使用梯度下降更新神经优化器网络参数使得网络在整个项目中获得很好的表现,但是在网络中每个项目从输入数据到输出预测结果的映射都是由网络指导的。这就是 RL² 和 A Simple Neural Attentive Meta Learner 起作用的原因。

为了使这篇文章更简明,我将主要叙述 1 和 3,以说明这个问题的两个概念性的结局。


其他名称的任务(小样本之外的第二个话题)

另一个简短的问题——我保证是最后一个——我希望澄清一个可能会造成困惑的话题。一般而言,在元学习的讨论中,你会看到「任务分布」的提法。你可能会注意到这个概念定义不明,而你的注意是对的。对于一个问题是一个任务还是多个任务中的一个分布,人们似乎还没有明确的标准。例如,我们应该将 ImageNet 视为一个任务——目标识别——还是许多任务——识别狗是一个任务而识别猫是另一个任务呢?为什么将玩 Atari 游戏视为一个任务,而不是将游戏的每一个等级作为一个独立任务的几个任务?

我能得到的有:

  • 「任务」的概念是用已经建立的数据集进行卷积,从而可以自然地将在一个数据集上进行学习认为是单个任务

  • 对于任何给定分布的任务,这些任务之间的不同之处都是非常显著的(例如,每一个学习振幅不同的正弦曲线的任务和每一个在玩不同 Atari 游戏的任务之间的差别)

  • 所以,这不仅仅是说「啊,这个方法可以推广到这个任务分配的例子上,所以这是一个很好的指标,这个指标可以在任务中一些任意且不同的分布上表现良好」。从方法角度上讲,这当然不是方法有效的不好的证据,但我们确实需要用批判性思维考虑这种网络要表现出多大的灵活性才能在所有任务中都能表现出色。


那些令人费解的动物命名的方法(Those Which Are Inexplicably Named After Animals)

在 2017 年早些时候,Chelsea Finn 及其来自 UC Berkeley 的团队就有了叫做 MAML的方法。

MAML(Model Agnostic Meta Learning,与模型无关的元学习)参见:与模型无关的元学习,UC Berkeley 提出一种可推广到各类任务的元学习方法。(如果你有心想要了解一下,请转向本文的「MAML 的种类」部分。)

 

在学习策略和学习先验之间,这种方法更倾向于后者。这种网络的目标在于训练一个模型,给新任务一步梯度更新,就可以很好地归纳该任务。就像是伪代码算法。

1. 初始化网络参数 θ。

2. 在分布任务 T 中选择一些任务 t。从训练集中取出 k 个样本,在当前参数集所在位置执行一步梯度步骤,最终得到一组参数。

3. 用最后一组参数在测试集中测试评估模型性能。

4. 然后,取初始参数θ作为任务 t 测试集性能的梯度。然后根据这一梯度更新参数。回到第一步,使用刚刚更新过的θ作为这一步的初始θ值。

(???没懂)

这是在做什么?从抽象层面上讲,这是在寻找参数空间中的一个点,就分布任务中的许多任务而言,这个点是最接近好的泛化点的。你也可以认为这迫使模型在探索参数空间时保留了一些不确定性和谨慎性。简单说,一个认为梯度能完全表示母体分布的网络,可能会进入一个损失特别低的区域,MAML 会做出更多激励行为来找到一个靠近多个峰顶端的区域,这些峰每一个的损失都很低。正是这种谨慎的激励使 MAML 不会像一般通过少量来自新任务的样本训练的模型一样过拟合。

2018 年的早些时候文献中提出了一种叫做 Reptile (爬虫)的更新方法。正如你可能从它的名字中猜出来的那样——从更早的 MAML 中猜——Reptile 来自 MAML 的预述,但是找到了一种计算循环更新初始化参数的方法,这种方法的计算效率会更高。MAML 明确取出与初始化参数 θ 相关的测试集损失的梯度,Reptile 仅在每项任务中执行了 SGD 更新的几步,然后用更新结束时的权重和初始权重的差异,作为更新初始权重的梯度。(Reptile 与MAML)

MAML元学习框架||与模型无关的元学习_第2张图片

g_1 在此表示每个任务只执行一次梯度下降步骤得到的更新后的梯度。

这项工作从根本上讲有一些奇怪——这看起来和将所有任务合并为一个任务对模型进行训练没有任何不同。然而,作者提出,由于对每项任务都使用了 SGD 的多个步骤(???),每个任务损失函数的二次导数则被赋予影响力。为了做到这一点,他们将更新分为两部分:

1. 任务会得到「联合训练损失」的结果,也就是说,你会得到用合并的任务作为数据集训练出来的结果。

2. SGD 小批次梯度都是接近的:也就是说,在通过小批次后,梯度下降的程度很低。

我选择 MAML/Reptile 组作为「学习先验」的代表,因为从理论上讲,这个网络通过对内部表征进行学习,不仅有助于对任务的全部分布进行分类,还可以使表征与参数空间接近,从而使表征得到广泛应用。

MAML元学习框架||与模型无关的元学习_第3张图片

为了对这个点进行分类,我们先看一下上图。上图对 MAML 和预训练网络进行比较,这两个网络都用一组由不同相位与振幅组成的正弦曲线回归任务训练。在这个点上,两者针对新的特定任务都进行了「微调」:红色曲线所示。紫色三角代表少数梯度步骤中使用的数据点。与预训练模型相比,MAML 学到了,正弦曲线具有周期性结构:在 K=5 时,它可以在没有观察到这一区域数据的情况下更快地将左边的峰值移到正确的地方。尽管很难判断我们的解释是不是网络的真正机制,但我们可以推断 MAML 在算出两个相关正弦曲线不同之处——相位和振幅——方面做得更好,那么是如何从这些已给数据的表征进行学习的呢?


网络一路向下(循环网络)

MAML元学习框架||与模型无关的元学习_第4张图片

对一些人来说,他们的想法是使用已知算法,例如梯度下降,来对全局先验进行学习。但是谁说已经设计出来的算法就是最高效的呢?难道我们不能学到更好的方法吗?(RL²获得比梯度下降更好的算法)(Learning to learn by gradient descent by gradient descent

这就是 RL²(通过慢速强化学习进行快速强化学习)所采用的方法。这个模型的基础结构式循环神经网络(具体来说,是一个 LTSM 网络)。因为 RNN 可以储存状态信息,还可以给出不同输出将这些输出作为该状态的函数,理论上讲这就有可能学到任意可计算的算法:也就是说它们都具有图灵完备的潜力。以此为基础,RL² 的作者构建了一个 RNN,每一个用于训练 RNN 的「序列」都是一组具有特定 MDP(Markov Decision Process,马尔科夫决策过程。从这个角度解释,你只需将每次 MDP 看作环境中定义一系列可能行为且通过这些行为产生奖励)的经验集合。接着会在许多序列上训练这个 RNN,像一般的 RNN 一样,这是为了对应多个不同的 MDP,可以对 RNN 的参数进行优化,可以使所有序列或试验中产生的遗憾(regret)较低。遗憾(regret)是一个可以捕获你一组事件中所有奖励的指标,所以除了激励网络在试验结束时得到更好的策略之外,它还可以激励网络更快地进行学习,因此会在低回报政策中更少地使用探索性行为。

 

MAML元学习框架||与模型无关的元学习_第5张图片

图中显示的是运行在多重试验上的 RNN 的内部工作,对应多个不同的 MDP。

在试验中的每一个点,网络都会通过在多个任务和隐藏状态的内容--学习权重矩阵参数化函数隐藏状态的内容是作为数据函数进行更新并充当一类动态参数集合。所以,RNN 学习的是如何更新隐藏状态的权重。然后,在一个给定的任务中,隐藏状态可以捕获关于网络确定性以及时间是用于探索还是利用的信息。作为数据函数,它可以看得到特定任务。从这个意义上讲,RNN 在学习一个可以决定如何能最好地探索空间、还可以更新其最好策略概念的算法,同时使该算法在任务的一组分布上得到很好的效果。该作者对 RL² 的架构和对任务进行渐进优化的算法进行比较,RL² 的表现与其相当。


我们可以扩展这种方法吗?MAML

本文只是该领域一个非常简要的介绍,我肯定遗漏了很多想法和概念。如果你需要更多(信息更加丰富)的看法,我高度推荐这篇 Chelsea Finn 的博客(中文,在第三章介绍),此人也是 MAML 论文的第一作者。

在这几周的过程中,我试着对这篇文章从概念上进行压缩,并试着对这篇文章进行理解,在这一过程中我产生了一系列问题:

  • 这些方法该如何应用于更多样的任务?这些文章大多是在多样性较低的任务分布中从概念上进行了验证:参数不同的正弦曲线、参数不同的躲避老虎机、不同语言的字符识别。对我而言,在这些任务上做得好不代表在复杂程度不同、模式不同的任务上也可以有很好的表现,例如图像识别、问答和逻辑问题结合的任务。然而,人类的大脑确实从这些高度不同的任务集中形成了先验性,可以在不同的任务中来回传递关于这个世界的信息。我的主要问题在于:这些方法在这些更多样的任务中是否会像宣传的一样,只要你抛出更多单元进行计算就可以吗?或在任务多样性曲线上的一些点是否存在非线性效应,这样在这些多样性较低的任务中起作用的方法在高多样性的任务中就不会起作用了。

  • 这些方法依赖的计算量有多大?这些文章中的大部分都旨在小而简单的数据集中进行操作的部分原因是,每当你训练一次,这一次就包括一个内部循环,这个内部循环则包含(有效地)用元参数效果相关的数据点训练模型,以及测试,这都是需要耗费相当大时间和计算量的。考虑到近期摩尔定律渐渐失效,在 Google 以外的地方对这些方法进行应用研究的可能性有多大?每个针对困难问题的内部循环迭代可能在 GPU 上运行数百个小时,在哪能有这样的条件呢?

  • 这些方法与寻找能清晰对这个世界的先验进行编码的想法相比又如何呢?在人类世界中一个价值极高的工具就是语言。从机器学习方面而言,是将高度压缩的信息嵌入我们知道该如何转换概念的空间中,然后我们才可以将这些信息从一个人传递给另一个人。没人可以仅从自己的经验中就提取出这些信息,所以除非我们找出如何做出与学习算法相似的事,否则我怀疑我们是否真的可以通过整合这个世界上的知识建立模型,从而解决问题。

转载:机器之心 || 原文


三:与模型无关的元学习,一种可推广到各类任务的元学习方法

学习如何学习一直是机器学习领域内一项艰巨的挑战,而最近 UC Berkeley 的研究人员撰文介绍了他们在元学习领域内的研究成功,即一种与模型无关的元学习(MAML),这种方法可以匹配任何使用梯度下降算法训练的模型,并能应用于各种不同的学习问题,如分类、回归和强化学习等。

MAML元学习框架||与模型无关的元学习_第6张图片  ||  伯克利人工智能博客

智能的一个关键特征是多面性(versatility):完成不同任务的能力。目前的 AI 系统擅长掌握单项技能,如围棋、Jeopardy 游戏,甚至直升机特技飞行。但是,让 AI 系统做一些看起来很简单的事情,对它们来说反而比较困难。取得 Jeopardy 冠军的程序无法进行对话,专业的直升机特技飞行控制器无法在全新的简单环境中航行,比如定位起火现场、飞过去然后扑灭它。然而,人类可以在面对多种新情况时灵活应对并自发适应。怎样才能使人工智能体获得这样的多面性呢?

人们正在开发多种技术来解决此类问题,我将在本文中对其进行概述,同时也将介绍我们实验室开发的最新技术「与模型无关的元学习」(MAML:model-agnostic meta-learning)。

  • 论文地址:https://arxiv.org/abs/1703.03400

  • 代码地址:https://github.com/cbfinn/maml 

现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。(元学习定义,区别于强化学习从犯错中学习)

什么是学习如何学习?它可以应用到哪里呢?

最早的元学习法可以追溯到 20 世纪 80 年代末和 90 年代初,包括 Jürgen Schmidhuber 的理论和 Yoshua、Samy Bengio 的研究工作。最近,元学习再次成为热门话题,相关论文大量涌现,多数论文使用超参数选择(hyperparameter)和神经网络优化(neural network optimization)技术,进而发现优秀的网络架构、实现小样本图像识别和快速强化学习。

 

MAML元学习框架||与模型无关的元学习_第7张图片

近来多种元学习方法

少次学习(Few-Shot Learning)

MAML元学习框架||与模型无关的元学习_第8张图片

2015 年,Brendan Lake 等人发表论文挑战现代机器学习方法,新方法能够从一个概念的一个或多个样本中学习新概念。Lake 举例说,人类能够将上图识别为「奇怪的两轮车」,但机器不能仅根据一张图片泛化一个概念(同样仅展示一个示例,人类就可以从新的字母表中学习到一个字符)。在该论文中,Lake 总结出一组手写字符数据集 Omniglot,它被认为是 MNIST 的「调换(transpose)」,该数据集共有 1623 个字符类,每一类仅仅只有 20 个样本。2015 年国际机器学习大会(ICML)论文中,就有学者分别使用了记忆增强神经网络(memory-augmented neural network)和顺序生成模型(sequential generative model)展示了深度模型能够学会从少量样本中学习,即使目前仍然达不到人类的水平。

元学习方法的运行机制

首先元学习系统会在大量任务中进行训练,然后测试其学习新任务的能力。例如每一个类别给出几个样本,那么元学习是否能在将新的图片正确分类,或者在仅提供一条穿过迷宫的通道时,模型能否学会快速穿过新的迷宫。该方法包括在单个任务上训练和在留出样本上测试,与很多标准机器学习技术不同(???)。

MAML元学习框架||与模型无关的元学习_第9张图片

用于少量图像分类的元学习样本(来自论文:LSTM_Optimization as a model for few-shot learning,论文提供了源码)


在元学习过程中,模型在元训练集中学习不同的任务。在该过程中存在两种优化:学习新任务的学习者(器)和训练学习者的元学习者。元学习方法通常属于下面三个范畴中的一个:循环模型(recurrent model)、度量学习(metric learning)和学习优化器(learning optimizer)(三种元学习方法)。

循环模型

这种元学习方法训练一个循环模型(即 LSTM),模型从数据集中获取序列输入,然后处理任务中新的输入。在图像分类设置中,这可能包括从(图像、标签)对数据集中获取序列输入,再处理必须分类的新样本。

MAML元学习框架||与模型无关的元学习_第10张图片

输入 xt 和对应标签 yt 的循环模型(一个Epiode包含训练和测试,参考LSTM_Optimization as a model for few-shot learning对数据集的解释)

元学习者使用梯度下降(Adam ),而学习者仅运行循环网络。该方法是最通用的方法之一,且已经用于小样本的分类、回归任务,以及元强化学习中。尽管该方法比较灵活,但由于学习者网络需要从头设计学习策略,因此该方法比其他元学习方法的效率略低。

度量学习

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证

学习优化器(感觉跟循环模型相似?在论文中:Learning to learn by gradient descent by gradient descent)

最后一个方法是学习一个优化器,即一个网络(元学习者)学习如何更新另一个网络(学习者),以使学习者能高效地学习该任务。该方法得到广泛研究,以获得更好的神经网络优化效果。元学习者通常是一个循环网络,该网络可以记住它之前更新学习者模型的方式。我们可以使用强化学习或监督学习对元学习者进行训练。近期,Ravi 和 Larochelle 证明了该方法在小样本图像分类方面的优势,并表示学习者模型是一个可学习的优化过程。


作为元学习的初始化

迁移学习最大的成功是使用 ImageNet 预训练模型初始化视觉网络的权重。特别是当我们进行新的视觉任务时,我们首先只需要收集任务相关的标注数据,其次在 ImageNet 分类任务中获取预训练神经网络,最后再使用梯度下降在相关任务的训练集中微调神经网络(不修改网络结构,微调最后几层的参数)。使用这种方法,神经网络从一般大小数据集中学习新的视觉任务将会变得更有效。然而,预训练模型也只能做到这一步了,因为神经网络最后几层仍然需要重新训练以适应新的任务,所以过少的数据仍会造成过拟合现象。此外,我们在非视觉任务中(如语音、语言和控制任务等)并没有类似的预训练计划。那么我们能从这样的 ImageNet 预训练模型迁移学习过程中学习其他经验吗??

与模型无关的元学习(MAML)

如果我们直接优化一个初始表征,并且该表征能采用小数据样本进行高效的的调参,那么这样的模型怎么样?这正是我们最近所提出算法的背后想法,即与模型无关的元学习(model-agnostic meta-learning MAML)。像其他元学习方法一样,MAML 需要在各种任务上进行训练。该算法需要学习训练一种可以很快适应新任务的方法,并且适应过程还只需要少量的梯度迭代步。元学习器希望寻求一个初始化,它不仅能适应多个问题,同时适应的过程还能做到快速(少量梯度迭代步)和高效(少量样本)。下图展示了一种可视化,即寻找一组具有高度适应性的参数θ的过程。在元学习(黑色粗线)过程中,MAML 优化了一组参数,因此当我们对一个特定任务 i(灰线)进行梯度迭代时,参数将更接近任务 i 的最优参数θ∗i。

MAML元学习框架||与模型无关的元学习_第11张图片

MAML 方法的图解

这种方法十分简单,并且有很多优点。MAML 方法并不会对模型的形式作出任何假设。因此它十分高效,因为其没有为元学习引入其他参数,并且学习器的策略使用的是已知的优化过程(如梯度下降等)而不是从头开始构建一个。所以,该方法可以应用于许多领域,包括分类、回归和强化学习等。(??不懂)

 

尽管这些方法十分简单,但我们仍惊喜地发现,该方法在流行的少量图片分类基准 Omniglot 和 MiniImageNet 中大幅超越许多已存的方法,包括那些更复杂和专门化的现有方法。除了分类之外,我们还尝试了学习如何将仿真机器人的行为适应到各种目标中,正如同本博客最开始所说的动机,我们需要多面体系统。为此,我们将 MAML 方法结合策略梯度法进行强化学习。如下所示,MAML 可以挖掘到优秀的策略,即令仿真机器人在单个梯度更新中适应其运动方向和速度。

 

 

MAML on HalfCheetah

 

 

MAML on Ant

该 MAML 方法的普适性:它能与任何基于梯度优化且足够平滑的模型相结合,这令 MAML 可以适用于广泛的领域和学习目标。我们希望 MAML 这一简单方法能高效地训练智能体以适应多种情景,该方法能带领我们更进一步开发多面体智能体,这种智能体能在真实世界中学习多种技能。

 

论文:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

论文地址:https://arxiv.org/abs/1703.03400

 

摘要:我们提出了一种与模型无关的(model-agnostic)元学习算法,它能匹配任何使用梯度下降算法训练的模型,并能应用于各种不同的学习问题,如分类、回归和强化学习等。元学习的目标是在各种学习任务上训练一个模型,因此我们就可以只使用少量的梯度迭代步来解决新的学习任务。在我们的方法中,模型的参数能精确地进行训练,因此少量的梯度迭代步和训练数据样本能在该任务上产生十分优秀的泛化性能。实际上,我们的方法可以很简单地对模型进行参数微调(fine-tune)。我们证明,MAML 方法在两个小规模图像分类基准上有最优秀的性能,在少量样本回归中也产生了非常优秀的性能,同时它还能通过神经网络策略加速策略梯度强化学习(policy gradient reinforcement learning)的微调。

 

转载:机器之心 || 原文

你可能感兴趣的:(深度学习,元学习)