读论文Deterministic Policy Gradient Algorithms

近期打算把基于策略梯度的增强学习的几篇论文读了,包括DPG、DDPG、TRPO和A3C,希望能对策略梯度的学习有一个促进。

第一篇论文是Deterministic Policy Gradient Algorithms,简称DPG,也是deepmind发表的,后面又出了一篇论文DeepDPG,简称DDPG。很多基于策略梯度学习的论文都会选择DDPG算法进行效果比较。

论文讲了很多理论基础知识,正好学习一下

1、策略梯度(概率策略)

在MDP过程中,我们寻找是一个能使累计奖赏最大化的策略,目标函数定义如下:


读论文Deterministic Policy Gradient Algorithms_第1张图片

策略梯度的想法就是沿着使目标函数变大的方向调整策略的参数:


读论文Deterministic Policy Gradient Algorithms_第2张图片

这就是策略梯度的公式,出乎意料的简单

2、Actor-Critic算法

Actor-Critic算法网上用的最经典的图如下:


读论文Deterministic Policy Gradient Algorithms_第3张图片

Actor-Critic算法把策略函数和价值函数分别用单独的网络来近似, 策略函数作为Actor来做动作选择,价值函数作为Critic来对策略函数进行评估,根据Critic的输出来更新价值网络和策略网,把论文后面的几个公式放在这里描述一下整个的更新过程:


读论文Deterministic Policy Gradient Algorithms_第4张图片

3、Off-Policy

Off-policy就是通过其他的策略形成的采样样本来更新当前的策略,笼统来讲,如果我们考虑greedy算法,off-policy和on-policy的差异没有那么大。论文还是列了一下策略梯度的不同的地方,意思是采样是服从有一个比率的重点采样,但是梯度方向是没有变化的。


读论文Deterministic Policy Gradient Algorithms_第5张图片

4、Deterministic Policy Gradient Theorem

论文附录中有证明,当概率策略的方差趋近于0的时候,就是确定性策略,公式9就是公式2的特例


读论文Deterministic Policy Gradient Algorithms_第6张图片

5、Compatible Function Approximation

对合理的Q函数近似还是有一定要求的,才能满足模拟函数Q的梯度等于真实Q的梯度


读论文Deterministic Policy Gradient Algorithms_第7张图片

最后,最重要的迭代公式:


读论文Deterministic Policy Gradient Algorithms_第8张图片

我不告诉你,我没看懂,如何通过策略函数的梯度来线性近似表示Q函数。

最后论文通过比较stochastic on-policy actor-critic

(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

off-policy actor-critic (COPDAC)在连续的动作空间的游戏的表现说明DPG的算法效率比较高,效果也不错。


读论文Deterministic Policy Gradient Algorithms_第9张图片

论文也给出了DPG在ba z八抓鱼中的测试,随着迭代的进行,reward有一直增长的趋势,具体数据看论文吧。

结论:


读论文Deterministic Policy Gradient Algorithms_第10张图片

你可能感兴趣的:(读论文Deterministic Policy Gradient Algorithms)