【论文翻译】ACTOR-MIMIC :DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING

  • Abstract:

    • 在多个环境中行动并且将学会的知识进行迁移,是智能体的一个重要技能。为此,我们定义了一种新的“多任务和迁移学习”方法,使智能体能够学习如何同时处理多个任务,然后将其知识推广到新的领域。这种方法被称为“Actor-Mimic”,利用深度强化学习技术和模型压缩技术,来学习一个单一的策略网络:在几位专家老师的指导下,学习如何在一系列不同的任务中行动。我们随后证明了:学习到的表征,能够在没有专家指导的情况下,泛化到新的任务,同时加快了在新环境下的学习。我们的方法通常可以应用于广泛的领域,本文我们使用Atari games作为测试环境来演示我们的方法。
  •  1 INTRODUCTION

  •  3 ACTOR-MIMIC

    • 3.1 POLICY REGRESSION OBJECTIVE

      • 给定一组游戏S1,...,SN,我们的第一个目标就是:得到一个多任务策略网络,能玩这些游戏的时候表现的接近于专家水平。为了训练这个多任务网络,我们使用多个专家DQN E1....,EN,这些专家DQN是特定于任务的。此时,我们把“guidance”定义为通用策略的q-network和专家的q-network之间的均方误差。由于不同游戏之间的专家q-network的输出值可能很不一样,相差范围较大,此时我们发现很难直接从专家的q-network当中蒸馏知识。于是我们的替代方案是: 对q-network的输出进行softmax操作,从而限制一下输出的范围,这样在训练时候更加稳定。直观地说,我们可以从迫使学生更多地关注专家在每个状态下选择的动作的角度来看待使用softmax,因为在每个状态下,状态的准确值本身是多少显得不太重要。我们称之为:“Actor-Mimic”。特别是,我们的技术首先通过Q值输出Boltzmann分布,将每个专家DQN转换为策略网络。
      •                    
      • 其中τ是一个温度参数, AEi 是 专家所使用的动作空间。我们定义策略网络的学习目标是:专家网络的策略和多任务网络的策略之间的交叉熵:
      • 其中 πAMN(ajs;θ) 是多任务策略,与多任务自己学习Q-network作为目标相比,我们现在有一个稳定的监控训练信号(专家网络输出)来指导多任务网络。
      • 在实际采样样本的时候,可以从专家策略采样也可以从多任务策略采样,都可以收敛。采用的方法是epislon-greedy策略。
    •  3.2 FEATURE REGRESSION OBJECTIVE

      • 我们可以通过这样的方式来得到专家网络的指引。
      • 记 hAMN(s) 为AMN网络输出层的前一个隐含层激励。 记 hEi(s) 为 专家网络输出层的前一个隐含层激励。
      • 接下来我们使用一个网络 fi 来拟合:从 hAMN(s) 到 hEi(s)的映射。并用下面的损失更新fi网络。
      • 当优化这个目标函数的时候,误差被反向传播到 fi网络 和 AMN网络 的所有层。通过这种方式,强行逼迫AMN网络计算出可以预测 专家特征 的 特征。这样做的理由是:如果我们能从一个多任务网络预测到所有专家特征,那么专家特征的信息都会被包含在里面。对每个专家网络,都使用不同的特征预测网络,这种做法,可以解决这个问题:“不同的专家特征具有不同的维度”。通过实验我们发现,这种设计方法的主要好处是:它可以提高迁移学习在某些目标任务中的表现。
    • 3.3 ACTOR-MIMIC OBJECTIVE

      • 结合之前定义的各种优化目标,总的优化目标可以定义为:
      • 其中,β是一个超参数,用来控制两个目标之间的相对权重。直观地说,我们可以把policy regression objective看作是:老师告诉学生应该如何行动。而feature regression objective 类似于:老师告诉学生为什么要这样做(模仿专家的思维过程)。
    • 3.4 TRANSFERING KNOWLEDGE: ACTOR-MIMIC AS PRETRAINING

      • 现在我们已经会了如何把学习多任务策略,接下来我们可以把任务迁移到新的目标当中。想要迁移到新任务,需要先删除最后一个softmax层。然后,我们使用AMN的权重装载进DQN网络进行训练,该DQN将在新的目标任务上进行训练。
  • 4 CONVERGENCE PROPERTIES OF ACTOR-MIMIC

    • agent采取episilon-greedy策略,通用策略的状态是K维向量,Q网络是一个KxA的矩阵。动作空间是A维度。输出的动作分布就是:Q值 的 softmax。
    • 4.1 STOCHASTIC STATIONARY POLICY

    • 4.2 STOCHASTIC ADAPTIVE POLICY

    •  

你可能感兴趣的:(强化学习)