强化学习课程笔记1:强化学习简介

课程简介

笔者最近在刷强化学习相关的基础课程,一番调研之后选定UCL和UCB的两门公开课,刚好代表目前RL领域最火的两个流派。关于两个流派的对比讨论,详见知乎 请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

简单介绍一下两个课程:

  • UCL Course on RL
    • DeepMind当家人David Silver从头讲到尾,深入浅出,清晰明了。
    • 可能是因为是在UCL开课的原因,讲的非常细致仔细,一点一点拆开来讲,有视频有讲义,质量都很高,对新手是相当友好了。
    • 课程思路是RL-intro那本书的思路,value-based为主,policy gradient做了一节课的简要介绍,最后延伸的是DQN, MCTS相关方法,和Silver的研究思路一致。
    • 15年的课程了,虽然基础概念不变,但缺少对新方法的介绍。Standford开的课程CS234: Reinforcement Learning Winter 2019思路和这门课类似,有视频有讲义,讲的没有Silver透彻,但更新了一些15年之后火起来的概念,可以相互参考。
    • 喜欢读论文的选手可以直接读Silver的thesis,内容大同小异:
      Reinforcement Learning and Simulation-Based Search. D. Silver. Ph.D. thesis, 2009. 。
    • 后续延申的Master Go论文,是整个课程概念的综合运用,简洁明了:
      Mastering the Game of Go without Human Knowledge. D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Graepel & D. Hassabis. Nature 2017.
  • CS294-112 Deep Reinforcement Learning (UCB)
    • Pieter Abbeel的明星博士生Sergey Levine主讲,基础讲解不多,但深挖了许多理论指导的insight,刷了几节课就觉得受益良多。
    • 重点是提供许多代码作业,设置合理,刷下来就可以直接上手RL项目了,进阶必备啊。
    • policy-based的思路,value function作为缓解policy gradient variance的方法被引入。
    • 18年冬的课程,内容很新,没有在tabular设置上浪费什么时间,直接function approximation,且有多方面拓展,蛮适合做研究入门的。

笔者有一定的深度学习基础,一周刷完UCL基础课,在刷UCB课程顺便做作业练手,整体感觉学习节奏还是蛮舒服的,推荐。
这个系列的博客只是笔者的云笔记,仅对核心概念做记录,对课程中隐含的推导过程做补充;并不以讲清楚概念为原则,概念在课程中(有视频有讲义)已经讲的很清楚了。

Reinforcement Learning简介

RL讨论的是如何做sequential decision making,有别于其他ML范式,RL有如下特有特征:
强化学习课程笔记1:强化学习简介_第1张图片
RL与多个领域有交叉,详见下图:
强化学习课程笔记1:强化学习简介_第2张图片

Framework and Markov Decision Process (MDP)

对agent来说的RL框架如下图所示:
强化学习课程笔记1:强化学习简介_第3张图片
大脑代表的是Agent,是RL学习控制的部分;地球代表的是environment不可控,根据Agent的action做反应,返回observation/reward。
这里特意将state和observation做区分,是因为state不一定是全知的,observation可能只是包含state信息量的子集。state本身可指代多种概念,这里常用的是Markov State,即历史中与未来有关的所有信息,确定Markov State既可以确定未来状态的概率分布:
强化学习课程笔记1:强化学习简介_第4张图片
State, observation, action的关系在下面这个概率图中总结的蛮好:
强化学习课程笔记1:强化学习简介_第5张图片
关于这个framework,其表征能力基于如下假设(并没有证明,但实际中也很难发现反例):
强化学习课程笔记1:强化学习简介_第6张图片
若承认此假设,RL框架既可以用于任何问题。
一个有趣的问题是,RL一般要求reward是标量,这个有没有限制RL框架的表征能力呢?Silver给的回答是:RL相当于从所有可能的action sequence space中搜寻optimal action sequence,若optimal可定义,则必然存在action sequence的partial order,所以可以将所有action sequence拉到一维空间做比较,即使用标量reward并不会影响RL框架的表征能力。

Agent的组成成分

如何学习Agent的action/behavior 是RL主要讨论的问题。和其他领域一样,这里各种各样的方法,有不同的trade-off,“没有免费的午餐”理论在这里仍然适用。
目前主流的方法大致包括以下三个组件的一个或多个:

  • Policy: agent’s behaviour function
  • Value function: how good is each state and/or action
  • Model: agent’s representation of the environment

具体区分的方法类别如下:
强化学习课程笔记1:强化学习简介_第7张图片

你可能感兴趣的:(RL课程,强化学习,机器学习,深度学习)