机器学习与深度学习系列连载: 第三部分 强化学习(十六) 深度强化学习- Pathwise Derivative策略梯度
PathwiseDerivative策略梯度我们在使用Critic(评估价值)的过程中,传统的方法只是给一个评估的值得大小,我们利用评估的值,采取增加倾向于评估值大的action的概率。但是如果Critic不但给出对于action的评价,而且给出actor下一步的建议呢。(就像老师不但把我们作业批改了,然后还给出了怎么做好作业的建议,而传统的Critic知只是一个能给我们批改作业的老师,但是没有给