深度学习(四十二)——深度强化学习(5)PPO, IMPALA, Hierarchical RL, OpenAI
PPO(ProximalPolicyOptimization)PPO是2017年由OpenAI提出的一种基于随机策略的DRL算法,也是当前OpenAI的默认算法。PPO是一种Actor-Critic算法。它的主要改进在它的Actor部分。我们知道,PolicyGradient算法的训练过程中,始终存在着newPolicy和oldPolicy这样一对矛盾。一方面,我们需要newPolicy和oldP