我们在使用Critic(评估价值)的过程中,传统的方法只是给一个评估的值得大小,我们利用评估的值,采取增加倾向于评估值大的action的概率。
但是如果Critic不但给出对于action的评价,而且给出actor下一步的建议呢。(就像老师不但把我们作业批改了,然后还给出了怎么做好作业的建议,而传统的Critic知只是一个能给我们批改作业的老师,但是没有给出建议)
Deepmind 大神David Silver 给了我们一个“既能批改作业,又能给我们指导未来的老师”的算法. Pathwise derivative policy gradient
思路是建立一个actor的network,它能够选择Q-learning 中的最大值
具体算法结构如下:
1.我们首先固定 Q π Q^{\pi} Qπ
2.不断更新actor 找到 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)的最大值
3.然后我们利用以往的经历更新 Q π Q^{\pi} Qπ ,回到1
大道至简,大道至同,这个算法看起来有浓浓的GAN的味道。GAN以后我们会开专栏单独讲,大家仔细品味。
我们粗略比较下 Pathwise derivative policy gradient和GAN的相同点和不同点。
图片来自:David Pfau, Oriol Vinyals, “Connecting Generative Adversarial Networks and Actor-Critic Methods”, arXiv preprint, 2016
我会在对抗网络的专栏中,专门为大家介绍GAN模型。
论文参考:
David Silver, Guy Lever, Nicolas Heess, Thomas Degris, Daan Wierstra, Martin Riedmiller, “Deterministic Policy Gradient Algorithms”, ICML, 2014
Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess,
Tom Erez, Yuval Tassa, David Silver, Daan Wierstra, “CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING”, ICLR, 2016
本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里,感谢这些经典课程,向他们致敬!