Deterministic Policy Gradient Algorithms

Stochastic Policy GradientDeterministic Policy Gradient

  1. 随机策略的公式为:

    πθ(a|s)=P(a|s;θ)

  2. 确定性策略的公式为:

    a=μθ(s)

Stochastic Policy Gradient

在MDP过程中,我们寻找是一个能使累计奖赏最大化的策略,目标函数定义如下:


Deterministic Policy Gradient Algorithms_第1张图片

策略梯度的想法就是沿着使目标函数变大的方向调整策略的参数:


Deterministic Policy Gradient Algorithms_第2张图片

Deterministic Policy Gradient


Deterministic Policy Gradient Algorithms_第3张图片

总结:

  • Policy是指Agent则是在状态s时,所要做出action的选择,定义为 π , policy可以视为在Agent感知到环境后s后到动作a的一个映射。如果策略是随机的,policy是根据每个动作概率 π(a|s) 选择动作;如果策略是确定性的,policy则是直接根据状态s选择出动作 a=π(s)

参考文献:

  1. Deterministic Policy Gradient Algorithms
  2. 强化学习进阶 第八讲 确定性策略方法
  3. 读论文Deterministic Policy Gradient Algorithms
  4. DRL之Policy Gradient, Deterministic Policy Gradient与Actor Critic
  5. 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

你可能感兴趣的:(论文)