DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)

  • 原文题目:Policy Gradient Methods for Reinforcement Learning with Function Approximation
  • 作者:Richard S. Sutton, David McAllester, Satinder Singh, Yishay Mansour
  • 发表时间:2000年
  • 主要内容:强化学习中使用函数近似的策略梯度方法。得出了策略梯度的表达式,进一步推导了使用函数近似情况下的计算问题,最后证明这样的方法可以收敛到局部最优。

文章目录

  • 0 基本的定义
  • 1 策略梯度定理
  • 2 函数近似条件下的策略梯度理论

你可能感兴趣的:(策略梯度,强化学习,Approximation)