强化学习中的迁移学习

强化学习中迁移学习

  • 描述强化学习中的迁移问题
  • 强化学习中迁移学习的分类
  • 强化学习中的迁移应用最新进展

描述强化学习中的迁移问题

强化学习是一种根据环境反馈进行学习的技术。其 a g e n t agent agent辨别自身所处的状态( s t a t e state state),按照某种策略决定动作( a c t i o n action action),并根据环境反馈的奖励来调整策略,直至达到最优。马尔科夫决策 M D P ( M a r k o v D e c i s i o n P r o c e s s ) MDP(Markov Decision Process) MDP(MarkovDecisionProcess)是强化学习任务的标准描述,我们定义一个任务 M M M,用四元组 < S , A , P , R > <S,A,P,R>表示,其中 S S S是状态空间, A A A是动作空间, P P P是状态转移概率, R R R是奖励函数。 s t a t e − a c t i o n state-action stateaction空间 S × A S\times A S×A定义了任务的域,状态转移概率 P P P和奖励函数 R R R定义了任务的目标。当强化学习的状态动作空间 S × A S\times A S×A很大时,为了寻找最优策略,探索过程非常耗时。此外,学习近似最优解所需的样本数量在实际问题中往往令人望而却步。无论是基于值函数的方法还是基于策略的方法,只要问题稍稍变动,之前的学习结果就会失效,而重新训练的代价巨大。因此,研究者们针对强化学习中的迁移学习展开了研究,希望能够将知识从源任务迁移到目标任务以改善性能。

强化学习中迁移学习的分类

关于强化学习中的迁移研究已经有很多,这些研究涉及到许多不同的迁移问题。由于在处理这一复杂而具有挑战性的问题时采用的方法和思路大不相同,因此通常很难清晰地了解强化学习的当前最新技术。 L a z a r i c A Lazaric A LazaricA从主要的迁移设置、迁移的知识种类和迁移目标三个方面,对强化学习中的迁移学习进行分类,如下表所示:
强化学习中的迁移学习_第1张图片
Setting
根据源任务数量和目标域之间的差异,强化学习中迁移设置如下图所示,有以下三种:

  • 从单一源任务到目标任务的固定域迁移。任务域由其状态-动作空间 S × A S\times A S×A决定,而任务的具体结构和目标由状态转移模型 T T T和奖励函数 R R R决定。强化学习中迁移学习的早期研究大多任务域是固定的且只涉及两个任务:一个源任务和一个目标任务。
  • 跨多个源任务到目标任务的固定域迁移。 在这种情况下,任务共享相同的域,迁移算法将从一组源任务中收集到知识作为输入,并使用它来改进在目标任务中的表现。
  • 源任务和目标任务不同域迁移。 在该设置中,任务有不同的状态-动作空间,无论是在数量上还是范围上。在这种情况下,大多数迁移方法都着重于如何定义源状态-动作变量和目标变量之间的映射,以便获得有效的知识迁移。

强化学习中的迁移学习_第2张图片
Knowledge

  • Instance Transfer(实例迁移)。强化学习算法依赖于从与 M D P MDP MDP的直接交互中收集的一组样本为手头的任务构建解决方案。这组样本可以用在基于模型的方法中估计 M D P MDP MDP模型,或者在无模型方法中构建值函数或策略的近似。最简单的迁移算法收集来自不同源任务的样本,并将其重用于目标任务的学习。
  • Representation Transfer(特征迁移)。每种强化学习算法对于任务和解决方案都使用特定的表示,如神经网络或一组近似最优值函数的基函数。在不同任务的学习过程中,迁移算法通常会改变任务和解的表示形式以进行目标任务的学习。
  • Parameter Transfer(参数迁移)。强化学习算法有大量参数定义了初始化和算法行为。一些迁移方法根据源任务改变和调整算法参数。例如,若果某些状态-动作对中的动作值在所有源任务中都非常类似,则可以据此将目标任务的 Q − t a b l e Q-table Qtable初始化,从而加快学习过程。初始解决方案(策略或值函数)通常被用来在只有一个源任务的迁移设置中初始化算法。

Objective

  • Learning speed(学习速度提升)。学习算法的复杂性通常由实现所需性能所需的样本数量来衡量。在实践中,可以使用时间与阈值,面积比,有限样本分析等来衡量学习速度的提升。通过设置阈值,并测量单任务和迁移算法需要多少经验 (如样本、片段、迭代) 来达到这个阈值,以判定迁移效果。面积比度量方法通过考虑迁移学习前后学习曲线下的区域进行度量。
  • JumpStart(初始提升)。通过从源任务进行迁移,看 a g e n t agent agent在目标任务中的初始性能的提升来衡量迁移学习的效果。学习过程通常从假设空间中的随机或任意的假设开始。根据环境的定义,所有的任务都来自同一个分布 Ω \Omega Ω
  • Asymptopic performance(渐进提升)。在大多数实际感兴趣的问题中,最优值函数或策略的完美近似是不可能的。使用函数逼近技术,近似值越精确,收敛性越好。近似的准确率严格依赖于用于表示解决方案的假设空间的结构。该目标就是看迁移学习后, A g e n t Agent Agent最终表现的提升。

强化学习中的迁移应用最新进展

《Transfer Learning For Related Reinforcement Learning Tasks Via Image-to-Image Translation(ICLR-2019)》
论文链接:https://arxiv.org/abs/1806.07377
代码链接:https://github.com/ShaniGam/RL-GAN
《Transfer in Deep Reinforcement Learning using Knowledge Graphs》
论文链接:https://arxiv.org/pdf/1908.06556.pdf
《Transfer of Temporal Logic Formulas in Reinforcement Learning(IJCAI-2019)》
论文链接:https://arxiv.org/pdf/1909.04256.pdf
《Value Function Transfer for Deep Multi-Agent Reinforcement Learning Based on N-Step Returns (IJCAI-2019)》
论文链接:https://www.ijcai.org/Proceedings/2019/0065.pdf
《Importance Weighted Transfer of Samples in Reinforcement Learning (ICML-2018)》
论文链接:https://arxiv.org/pdf/1805.10886.pdf

你可能感兴趣的:(迁移学习,机器学习,人工智能,算法)