【李宏毅-强化学习笔记】p7、Sparse reward

首先sparse reward是什么意思呢?有很多情况下,我们做很多事是没有reward的,例如考研,我们每天看书、做习题然后不断的重复都没有奖励值,但是一旦考上了,就会有丰厚的奖励,这样总体来看,我们获得的奖励类似于:
                 0,0,0,…0,0,100
这就称为稀疏奖励。

一、reward shaping(塑造)

想法就是:认为的设置一些reward来引导agent采取希望的action,还以考研为例,假如你做题目的时候,得了高分就奖励自己一份大餐,或者看一部电影这样。以好奇心网络来说明该方法:https://arxiv.org/abs/1705.05363
【李宏毅-强化学习笔记】p7、Sparse reward_第1张图片
也就是说,现在的奖励有两部分,ICM的reward就是自己shape的reward,结构如下:
【李宏毅-强化学习笔记】p7、Sparse reward_第2张图片
用ICM 的net去估一个动作,这个动作和实际的差别越大越好,但是带来的问题是,差别很大不一定使我们需要的,所以还要进一步改进。
【李宏毅-强化学习笔记】p7、Sparse reward_第3张图片
就是说,虽然我们鼓励冒险,但是也要在正道上。所以一方面action收到两个方面的约束:
  1、使得diff尽量大
  2、尽量接近network的输出

  其他参考资料:
  https://openreview.net/pdf?id=Hk3mPK5gg
  https://openreview.net/forum?id=Hk3mPK5gg¬eId=Hk3mPK5gg

二、curriculum learning

课程学习→规划学习,由简到难的学习方式。
【李宏毅-强化学习笔记】p7、Sparse reward_第4张图片
就是让机器先从简单的任务入手,逐渐增加任务的难度。通用的方法来学习是通过reverse curriculum 的方式。
【李宏毅-强化学习笔记】p7、Sparse reward_第5张图片
首先设定目标状态Sg,然后采样周边的状态例如s1,s2等,从s1开始学习,每个trajectory都有奖励值。被采样的点中,也会删除掉一些特别困难和简单的状态。

三、Hierarchical Reinforcement Learning

整段视频老师讲的比较泛,需要自己磕paper,分层学习的思路是:上层提远景,下层实现。李宏毅老师举得例子是:为了学校建设,校长要求教授每年发三篇paper,然后实际上教授会把这些事情丢给研究生来做。我还是感觉像actor-critic。下面是走迷宫和单摆的例子:提目标-去实现-刷新目标…
【李宏毅-强化学习笔记】p7、Sparse reward_第6张图片
https://arxiv.org/abs/1805.08180,这一块的内容后面肯定要会过来看的,算是一个坑吧,之后再来填。

你可能感兴趣的:(强化学习)