1. 介绍

Policy gradient算法在增强学习中有非常多的应用，尤其是动作空间连续的情况。通常我们使用一个函数来表示策略。通常policy gradient会从随机策略中采样，然后优化策略来得到更高的reward。
这篇论文中，作者考虑的是deterministic policies。作者证明，deterministic policy是随机policy的极限，当policy variance趋于0的时候。
为了能够探索足够多的state和动作空间，随机policy是必须的。因此，为了使得deterministic policy gradient有令人满意的探索的效果，作者使用了off-policy learning 算法。简单地说，根据随机behavior policy来选择动作，但是学习deterministic target policy。作者使用deterministic policy gradient来学习一个actor-critic算法，用于估计action-value。

2. 算法背景

policy gradient算法的思路就是朝着performance gradient 调整policy的参数。如下：

2.3 随机Actor-Critic 算法

Actor-critic算法包含一个actor，它根据上面的公式调整参数。但是它不知道。因此，增加一个critic还学习，作为真实的一个估计，它通常会使用一个policy evalution算法，例如TD learning。
通常情况下，使用critic会导致偏差（因为估计的值和真实值之间有误差），但是如果 1）， 2）最小化MSE：

MSE

2.4 Off-Policy Actor-critic

有时候我们需要计算的策略梯度并不对应采集的样本的策略，这就是off-policy。在这种问题中，performance object也就是通常需要修改

off-policy

对上式求导得到off-policy policy-gradient

4，5

3. Gradients of Deterministic Policies

3.1 Action-Value Gradients

大多数的model-free 增强学习算法基于policy iteration：交替地进行policy evaluation 和 policy improvement。Policy evaluation用于估计action-value函数：或者。Policy improvement用于根据当前的action-value来更新策略，例如贪婪策略。
在动作空间连续的时候，就很难进行贪婪策略，因为得不到全局最大值。因此，一个简单，计算要求不高的代替是将策略向的梯度移动。对于每一个状态，policy parameters 使用梯度进行更新。取平均得到下面公式：

使用chain rule，分解为下面公式：

3.2 Deterministic Policy Gradient Theorem

考虑一个deterministic policy ，我们可以定义performance objective ，probability distribution ,discounted state distribution ，将performance objective写为：

Theorem 1(Deterministic Policy Gradient Theorem)

9

3.3 Limit of the Stochastic Policy Gradient

在这一部分作者证明来deterministic policy gradient 是stochastic policy gradient的极限情况。

4. Deterministic Actor-Critic Algorithms

有了deterministic policy gradient theorem，接下来推导on-policy off-policy actor-critic algorithms。

4.1 On-Policy Deterministic Actor-Critic

On-Policy

4.2 Off-Policy Deterministic Actor-Critic

Performance objective of target policy, averaged over the state distribution of the behavior policy

求导