1. DRL-1
1.DeppMind(openai) Policy Gradient
- 基本的组件:Actor Env Reward Function。
除了Actor可以自己控制外,其他的都不可以优化处理。 - Policy of Actor (Policy=神经网络)
-
动作、环境、奖励的关系
这样形成了一个轨迹,和轨迹参数对应的出现几率。
在不同环境做不同的动作会有不同的奖励。
我们希望得到奖励的期望值。方式是:穷举不同的运动轨迹得到出现的概率和对应的奖励,然后求平均。
- Policy Grdient
![image.png](https://upload-images.jianshu.io/upload_images/11875530-52dc9c37 * 576e9968.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
我们比较在意与动作用关的项。
一个参数theta对应很多tao,每一个tao对应的过程,
p_(theta)(atn|stn)是对每一个轨迹的每一个时刻的状态和动作求概率,并求log,然后求导。最后乘以改组参数的的奖励,在把所有的轨迹求平均。
2. DRL-2
- on-Policy off-policy的区别
自己参与学习过程,on-policy,通过观察学习,off-policy
1.off-policy
- importance sampling
3.Critic
1.Monte-Carlo(MC) based
2. Temporal-difference(TD) approach
中间值差分?
- 两者的差距
蒙特卡罗方法,得到较大的方差。因为,从头做到最后的中间过程太多了。差分方法是具有较小的方差。
- another critic
Qpi(s,a)在s状态强制使用动作a。
只针对离散的动作有效。
-
Q-learing
已经学到pi,在某个s,代入a,然后求出最大的Q,就可以得到pi,状态s对应的a。pi 至于Q有关。
pi'方程
** 动作不要是连续的值。
为什么得到的就比较好呢?
- 参考
- https://www.youtube.com/watch?v=z95ZYgPgXOY