ICLR 2018 BEST PAPER

这篇文章的题目如下:
ICLR 2018 BEST PAPER_第1张图片
论述了如何将元学习用于非静态环境下多agents的增强学习。与传统的多agents静态环境(atari)和单agent静态环境相比,该场景更复杂,同时也与实际应用情景相吻合!该问题的提出在review中被认为是通向AGI的重要的一步。设想这样的一个游戏场景:愤怒的小鸟—游戏中的重力随着时间动态的改变,从而该场景是一个典型的非静态环境,是之前的增强学习方法所不能handle的。
下面将从multi-task MAML入手,引入文章所用技术的基本components;随后,从伪代码简要分析文章所提方法—continuous adaptation via meta-learning。

  • multi-task MAML
    在给出MAML在多任务下的图模型之前,给出文章的截图,并做一些注释和分析。
    ICLR 2018 BEST PAPER_第2张图片
    对于一些定义的表述,需要做以下两点的注意:
    1.文章关于任务做了如(1)式的定义,一个任务由一个元组组成,元组包括任务的损失函数、任务的马尔科夫链(用来表征环境变化的)、观测和动作以及horizon H。在SL中,马尔科夫链的转移概率设为1,H设为1。
    2.关于任务和轨迹的理解:任务是轨迹的封装;轨迹是任务的实例。
    在计算损失函数值以及更新参数时,是先选择任务,再在任务中进行采样,获得轨迹的实例,在SL中,轨迹的概念和样本是一样的。
    ICLR 2018 BEST PAPER_第3张图片
    对于算法的执行流程,需要做两点注意:
    1.内循环计算task-specific policy的参数(phi):计算过程如式(2)所示,先从具体的一个任务中采样K个轨迹,在这K个轨迹上计算损失函数值,利用该损失函数值计算phi。(note:从任务中采样轨迹—SL中就是样本)
    2.外循环计算adaptation update parameter theta,通过在多任务下最小化基于各任务policy参数phi的期望损失函数的值来实现:计算过程如(3)式所示,通过在任务间进行采样,并将所得采样分别利用基于任务的参数phi计算在各个任务下的损失函数值并加和即可。

    注意在(3)式中的一些特别的表述方式,可能与常规的理解有些差异:
    对于每一个被采样的任务,我们来看下它是怎么处理的—首先,从该任务中采样一些轨迹(SL/样本),并用该轨迹作为之前训练好的task-specific policy的输入,得到对应的task-specific的损失函数值。(3)式中关于phi所求的期望的含义在于:在第1步中,我们会得到多个task-specific的policy,我们从这些policy中采样,计算每个任务的损失函数值。
    这相当于是在任务间选择了某个较优的更新策略(关于adaptation parameters的梯度更新方式)!!!
    下图是对文章中各个模型的图模型展示:
    ICLR 2018 BEST PAPER_第4张图片

  • continuous adaptation via meta-learning
    continue…

你可能感兴趣的:(algorithm)