DPG算法

1 一言以蔽之

  • (1) DPG是属于确定性策略梯度算法
  • (2)用于解决连续动作空间问题

2 优点和缺点

  • 2.1 优点
  • (1)从理论上可以证明,deterministic policy的梯度就是Q函数梯度的期望,这使得deterministic方法在计算上比stochastic方法更高效;
  • 2.2 缺点
  • (1)对于每个state,下一步的action是确定的。这就导致只能做exploitation而不能做exploration。这可能也是为什么policy gradient一开始就采用stochastic算法的原因。

3 核心理论

  • (1)策略梯度是Q对动作参数 θ μ \theta^{\mu} θμ进行求导。
    DPG算法_第1张图片
    DPG算法_第2张图片
    参考链接

你可能感兴趣的:(强化学习,算法)