李宏毅老师2020年深度学习系列讲座笔记4

瞎看吧。。。。至少做个笔记

https://www.bilibili.com/video/BV1UE411G78S?from=search&

 

终于讲到PPO了哈哈哈哈超搞笑超好玩的

首先给出基本要素啦,依旧是我们熟悉的actor、environment、reward function

李宏毅老师2020年深度学习系列讲座笔记4_第1张图片

和policy~

李宏毅老师2020年深度学习系列讲座笔记4_第2张图片

接下来就是讲了流程啦,观察到s_1→做出a_1→得到r_1→观察到新的s_2→……

李宏毅老师2020年深度学习系列讲座笔记4_第3张图片

一般来说~s_2和s_1、a_1都有关,而且一般来说是一个distribution而不是一个确定的值(打游戏并不是你看到这个页面做一个行动的结果是给定的,那样也太无聊啦!)

李宏毅老师2020年深度学习系列讲座笔记4_第4张图片

而且reward也不是一定的~因此我们针对这个问题,计算的不是一个reward而是reward的期望!(很多个trajectory的均值)

李宏毅老师2020年深度学习系列讲座笔记4_第5张图片

具体方法(公式推导在第二次笔记里说过了)

李宏毅老师2020年深度学习系列讲座笔记4_第6张图片

实作思路(复习啦)

李宏毅老师2020年深度学习系列讲座笔记4_第7张图片

用到的作为对照的都是sampling的结果

tips:1.baseline:因为reward是非负的 可能给不太好的action增大probability都会导致reward增加,因此通过add一个baseline只加比baseline大的,小的(由于乘上一个负数)概率会减小

李宏毅老师2020年深度学习系列讲座笔记4_第8张图片

2.可能有“败方MVP”现象:虽然有的总reward不好但是单步action好;有的虽然reward高但是有不好的action。

解决思路:因为每一条路上各个action如果都用(R(\tao^n)-b)一样的权重的话会造成平均但是不公平,因此我们用这一步之后所有的reward而不是整条trajectory的reward作为权重

李宏毅老师2020年深度学习系列讲座笔记4_第9张图片

还要乘上一个discount factor(\gamma)

1.本身离这action越远和action的关系越小

2.人们更希望得到奖励的时间尽量及时

李宏毅老师2020年深度学习系列讲座笔记4_第10张图片

 

 

 

 

你可能感兴趣的:(李宏毅老师2020年深度学习系列讲座笔记4)