PPO算法详解

原文:Proximal Policy Optimization Algorithms [arXiv] [GitHub]

1. PPO算法思想

PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。

2. Policy Gradient回顾

重新回顾一下Policy Gradient算法,Policy Gradient不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播,当然出人意料的是他并没有误差,而是利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。

策略 τ \tau τ的回报期望: ∇ R = E τ p θ ( τ ) [ R ( τ ) ∇ log ⁡ p θ ( τ ) ] \nabla R=E_{\tau p_\theta(\tau)}[R(\tau)\nabla\log p_\theta(\tau)] R=Eτpθ(τ)[R(τ)logpθ(τ)]

重要性采样(Importance Sampling):

E x p E_{xp} Exp

参考资源

[1] 【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法
[2] Proximal Policy Optimization

你可能感兴趣的:(强化学习及深度强化学习)