[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)

Proximal Policy Optimization (PPO)


一、Motivation

        避免较多的策略更新。

  • 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。
  • 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。

        所以在PPO中,我们保守地更新策略。为此,我们需要使用当前policy和前policy之间的比率计算来衡量当前政策与前政策相比发生了多少变化。我们把比率控制在[1-e,1+e],意味着我们移除当前policy与前policy太远的激励(因此称为近端政策术语)。

二、推导

2.1 策略目标函数(The Policy Objective Function):

        策略目标函数

                max L = E[在 S状态 采取 a行动 的对数概率 * 奖励A]

        L代表了一个batch内agent行动所奖励获得的期望。如果A>0,则在这个状态,该行动比其他行动的概率更大。

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第1张图片

       最大化目标函数用梯度上升来迭代更新参数​​,最小化损失函数用梯度下降来迭代更新参数。此处我们采取梯度上升[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第2张图片来最大化策略目标函数L,意味着我们将推动我们的智能体采取导致更高奖励的行动,也就是奖励最大化。

        策略目标函数的梯度:

        L对参数求导,得到梯度 g: 

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第3张图片

2.2 PPO—修剪替代目标函数(Clipped Surrogate Objective function):

        在PPO中,我们的想法是用一个新的目标函数来约束我们的策略更新,这个目标函数称为修剪代理目标函数,它将使用clip将策略更改限制在一个小范围内。

        这个新函数旨在避免破坏性的大权重更新:

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第4张图片

        比率:

        新策略在某状态做出某行动的概率/旧策略在某状态做出某行动的概率,比率用于估计新旧策略之间的差距。

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第5张图片

         这个比率,等价于策略目标函数的在S状态采取a行动的对数概率

        无约束部分: 

        所以无约束的部分(行动比率*奖励),等价于策略目标函数

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第6张图片

        然而,如果没有约束,如果在我们的当前策略中采取的行动比在我们的前一个策略中采取的行动更可能,这将导致显著的策略梯度步长,过度的策略更新。

        有约束部分:

        因此,我们需要通过惩罚导致比率远离1的变化来约束这个目标函数(在本文中,比率只能在0.8到1.2之间变化)。

        通过削减比例,我们确保我们不会有太大的策略更新,因为当前策略不能与旧策略相差太大。

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第7张图片

         为此,我们有两个解决方案:

        信赖域策略优化(Trust Region Policy Optimization, TRPO)利用目标函数外的KL散度约束来约束策略更新。但该方法实现复杂,计算时间长。把比率换成KL散度

        PPO clip probability ratio 直接在目标函数中用其clip替代目标函数。

        然后,我们取已修剪目标和未修剪目标的最小值,因此最终目标是未修剪目标的下界

        取裁剪目标和非裁剪目标的最小值意味着我们将根据比例和优势情况选择裁剪目标或非裁剪目标。

        PPO Actor-Critic 风格的最终裁剪代理目标损失如下所示,它是裁剪代理目标函数、值损失函数和熵奖励的组合:

[论文笔记] chatgpt——PPO算法(Proximal Policy Optimization)_第8张图片

你可能感兴趣的:(自然语言处理,人工智能,深度学习)