详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学
0.demo展示当我复现强化学习算法DDPG时,我发现论文中缺少必要的实现细节,例如:Gamma、噪声方差、最大训练步数等参数的取值。此外,在我调整参数,成功完成某次训练后,当我对随机种子进行修改,发现训练时长有很大变化,甚至有时候无法完成训练。更别提把在某个任务上work的代码换到相似任务上的艰辛历程了。如果你被这些问题困扰,那么你可能需要这份代码。由于我找不到符合我要求的轮子(2019-08)