策略梯度(Policy Gradients)的理解

理论分析请参见参考文献1、2、6、7;算法思想及伪代码参见参考文献2,具体见下图:


策略梯度(Policy Gradients)的理解_第1张图片

policy gradient 的最基本方法-REINFORCE 方法

然后根据理论分析了莫烦的《Policy Gradients 算法更新 (Tensorflow)》和《Policy Gradients 思维决策 (Tensorflow)》,有了进一步理解。

参考文献7、8可能有用,先留着

参考文献:

1.Tutorial: Deep Reinforcement Learning P45-48
2.Lecture 7 Policy Gradient Methods P21
3.Deep Reinforcement Learning: Pong from Pixels
4.深度强化学习:基于像素的乒乓游戏
5.基于Policy Gradient实现CartPole
6.reinforcement learning,增强学习:Policy Gradient
7.深度增强学习David Silver(七)——Policy Gradient
8.基于tensorflow的最简单的强化学习入门-part2: Policy-based Agents
9.实现强化学习策略网络

你可能感兴趣的:(增强学习)