强化学习 GAE算法:HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》论文笔记
文章目录1.简介2.准备知识3.优势函数估计4.用Rewardshaping来解释5.价值函数估计参考资料1.简介论文《HIGH-DIMENSIONALCONTINUOUSCONTROLUSINGGENERALIZEDADVANTAGEESTIMATION》是策略梯度算法中常用的优势估计算法GAE对应的论文,OpenAISpinningUp教程推荐读一读这篇论文。论文摘要翻译:策略梯度方法在强化学