强化学习算法TD3论文的翻译与解读:延迟学习、软更新、策略噪声、梯度截取

强化学习算法 TD3 论文:Addressing Function Approximation Error in Actor-Critic Methods 2018.10. ,作者本人的 TD3 代码,PyTroch 实现

与原版 DDPG 相比,TD3 的改动可以概括为:

  • 使用与双 Q 学习(Double DQN)相似的思想:使用两个 Critic(估值网络 Q(s, a))对动作 - 值进行评估,训练的时候取 min ⁡ ( Q θ 1 ( s , a )

你可能感兴趣的:(#,人工智能,深度学习,强化学习,深度强化学习,TD3算法,DDPG,算法)