强化学习RL学习笔记9-近端策略优化算法(Proximal Policy Optimization, PPO)
强化学习笔记专栏传送上一篇:强化学习RL学习笔记8-策略梯度(PolicyGradient)下一篇:持续创作中…目录强化学习笔记专栏传送前言FromOn-policytoOff-policyImportanceSampling概念应用重要性采样PPOPPO-PenaltyPPO-Clip前言强化学习(ReinforcementLearning,RL),又称再励学习、评价学习或增强学习,是机器学习的