Trust Region Policy Optimization (TRPO) 背后的数学原理

本文是自己的TRPO算法学习笔记，在数学原理推导核心部分附有自己的理解与解释。整篇文章逻辑清晰，思路顺畅。有想推导的同学可以一起学习。

TRPO和PPO都是基于Minorize-Maximization MM的算法。

Surrogate function

RL中期望maximizing the expected discounted rewards，期望折扣奖励可用如下数学公式表示：

我们希望去找到一个surrogate function(替代函数)，替代函数具有如下性质：

a lower bound function for ；(是的一个下界函数)
approximate at the current policy (在当前策略下能够近似等于 )
easy to optimize. (找这样一个替代函数的目的就是方便优化)

其图形表示为下图所示(蓝色表示下界函数，红色表示期望折扣奖励)：

surrogate function

在每一次迭代中，希望去找到一个对于下界函数来说的最优点，并把它当作当前的策略，如下图所示：

在这里插入图片描述

之后，我们基于新的policy，重新评估下界(re-evaluate a lower bound)，并重复迭代。重复上述过程，策略将会被持续改进。由于策略集有限，所以所以最终将会收敛到局部最优或者全局最优，整个流程如下图所示：

迭代流程图

整体的目标就是在原有的参数空间上很难去计算最优值，我们期望用一个替代函数来作为它的lower bound，下界函数比较好优化，然后通过迭代的方式让其逼近原始最优解。

Objective function

上述想法就很不错，现在我们需要去寻找目标函数和替代函数了。

首先我们去定义Q-Value function，Value function和Advantage function，如下：

其中， ,。

Expected discounted reward

期望折扣奖励可被表示为：

其中，，，

由于我们要比较更新前后的两个策略，从而保证策略一直在进步，所以作者这里是将新老策略写到了一个公式中：

其中 be the (unnormalized) discounted visitation frequencies (任意时刻状态的访问概率和)，其展开形式表示为：

如果能保证大于0，那新的策略下的期望折扣奖励就一直是在进步的。那这里就有两个问题了，1. 上述新老策略写在一个公式里面的证明呢？2. 如何去保证后面的附加项大于0?

证明：

$\begin{array}{l} \underset{\tau \sim \tilde{\pi}}{\mathrm{E}}\left[\sum_{t=0}^{\infty} \gamma^{t} A^{\pi}\left(s_{t}, a_{t}\right)\right] \\ =\underset{\tau \sim \tilde{\pi}}{\mathrm{E}}\left[\sum_{t=0}^{\infty} \gamma^{t}\left(R\left(s_{t}, a_{t}, s_{t+1}\right)+\gamma V^{\pi}\left(s_{t+1}\right)-V^{\pi}\left(s_{t}\right)\right)\right] \\ =\eta\left(\tilde{\pi}\right)+\underset{\tau \sim \tilde{\pi}}{\mathrm{E}}\left[\sum_{t=0}^{\infty} \gamma^{t+1} V^{\pi}\left(s_{t+1}\right)-\sum_{t=0}^{\infty} \gamma^{t} V^{\pi}\left(s_{t}\right)\right] \\ =\eta\left(\tilde{\pi}\right)+\underset{\tau \sim \tilde{\pi}}{\mathrm{E}}\left[\sum_{t=1}^{\infty} \gamma^{t} V^{\pi}\left(s_{t}\right)-\sum_{t=0}^{\infty} \gamma^{t} V^{\pi}\left(s_{t}\right)\right] \\ =\eta\left(\tilde{\pi}\right)-\underset{\tau \sim \tilde{\pi}}{\mathrm{E}}\left[V^{\pi}\left(s_{0}\right)\right] \\ =\eta\left(\tilde{\pi}\right)-\eta(\pi) \end{array}$

由此我们只剩下了第二点，从某个策略出发，通过计算找到一个策略，使得：

即可使得，也就是说策略改变之后，整体的收益也会增加，从而实现单调递增。那现在所有的问题都转化到了如何使得？

Function

在实际中几乎是不可行的，因为公式中包含，也就是说我们需要按照新的策略与环境交互得到状态的访问频率，但是这个新的策略是我们需要去求解的策略。也就是说如果要做的话，我们需要先确定新的策略，然后使用这个新的策略得到一定量样本，并最终通过这些样本统计判断这个策略能够满足上述要求，使得策略递增。我们需要不断地去尝试每一个可能的新策略。显然这种做法非常低效。

于是需要去找与上述公式的近似且可解的形式，定义function ：

与之前的公式：

对比，我们可以发现，两者的不同仅仅在于状态访问概率、的不同。那能否满足要求呢？其实两者的数值和导数方向都是相同的，那么用代替原始目标函数也是可以的，要求更新的幅度不要太大就好。

上面说了这么多，其实就是为了说明我们更新的幅度不要太大，因为更新大了之后，上述近似函数就无法成立，无法成立的话，你所拿策略采样得到的样本就没用了，因为实际上样本是要去新的策略里面去采样的，只是因为做了近似才可以用老的策略去采样。所以那我们怎么来保证其更新幅度不要太大呢？

例图

从之前的分析中可以知道是下界函数(bound function)中的一部分，中的另外一项是KL散度(KL-divergence)：

因此我们把策略模型看成一个概率分布，使用KL散度表示两个分布的距离。那两者之间有什么关系呢？原论文中作者用两页纸证明了的下界：

其中，，，。

是total variation divergence，由于：

得到新的下界函数(lower bound function)：

其中，

Monotonically improving guarantee

What we really prove here is the new policy generated from optimizing will have a guarantee that it will perform better in (the real expected rewards) than the old policy. Since there are only finite policies, the continuous improvement will only lead us to a local or a global optimal point.

令，有，，所以可以得到：

则时，期望折扣奖励将在下一次迭代被提升。

由此我们可以得到保证策略提升的算法。Here is the iteration algorithm that guarantees that the new policy will always perform better than the current one.

Policy iteration with Monotonically Improving Guarantee

此时算法的目标函数变为：

上式过于保守，将其做一些转变，得到有约束条件的优化目标：

在公式中需要对最大值进行约束，而最大值表示为KL散度上界，这实际上相当于对所有状态的KL散度进行约束，这样约束条件会变得多而复杂，将最大值变成均值理论上有所放松，但实际效果还好，于是有了：

最大值约束变为平均值约束

优化目标为：

而其中与新策略有关，无法对其采样，由此我们引入重要性采样：

$\sum_{a} \pi_{\theta}\left(a | s_{n}\right) A_{\theta_{\text {old }}}\left(s_{n}, a\right)=\mathbb{E}_{a \sim q}\left[\frac{\pi_{\theta}\left(a | s_{n}\right)}{q\left(a | s_{n}\right)} A_{\theta_{\text {old }}}\left(s_{n}, a\right)\right]$

the objective can be rewritten as：

$\begin{array}{c} \underset{\theta}{\operatorname{maximize}} \mathbb{E}_{s \sim \rho_{\theta_{\text {old }}}, a \sim q}\left[\frac{\pi_{\theta}(a | s)}{q(a | s)} \hat{A}_{\theta_{\text {old }}}(s, a)\right] \\ \text { subject to } \mathbb{E}_{s \sim \rho_{\theta_{\text {old }}}}\left[D_{\mathrm{KL}}\left(\pi_{\theta_{\text {old }}}(\cdot | s) \| \pi_{\theta}(\cdot | s)\right)\right] \leq \delta \end{array}$

With Lagrangian duality, a constraint for an objective function can be integrated back to the objective function with a multiplier. Both are mathematically the same(利用拉格朗日对偶，把约束项提到目标函数中去):

Lagrangian duality处理

直觉的看法

在之前的Gradient ascent方法中都是选择了梯度的方向，如下图中的左图所示，但是更新步长如果选取地不好很容易掉入深渊：

Intuition

在TRPO中限制了更新步长，并且在数学上证明了会收敛到局部最优或者全局最优：