深度强化学习算法调参

深度强化学习调参技巧:以D3QN、TD3、PPO、SAC算法为例
这个参考链接。

如何选择深度强化学习算法?
参考链接。

影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)

主要说明了了10个调参技巧。针对PPO类型的算法。部分调参技巧在DQN类算法上并不适应。本来嘛,DQN类算法只能算深度强化学习的入门级算法,简单,好理解。PPO类算法的远离相对来讲比较复杂。
Trick 1—Advantage Normalization.
Trick 2—State Normalization.
Trick 3 & Trick 4—— Reward Normalization & Reward Scaling.
Trick 5—Policy Entropy.
Trick 6—Learning Rate Decay.
Trick 7—Gradient clip.
Trick 8—Orthogonal Initialization.
Trick 9—Adam Optimizer Epsilon Parameter.
Trick10—Tanh Activation Function.

对应的代码,可以在这个git仓库中找到。

这个博客讲的就比较全面了。

主要参考这个论文。

你可能感兴趣的:(强化学习,强化学习)