详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学

0.demo展示

详解DDPG算法:解决对大量的超参数、随机重启、任务环境敏感问题,完成月球着陆器,双足机器人demo、以及超参数调优教学_第1张图片

当我复现强化学习算法 DDPG 时,我发现论文中缺少必要的实现细节,例如:Gamma、噪声方差、最大训练步数等参数的取值。此外,在我调整参数,成功完成某次训练后,当我对随机种子进行修改,发现训练时长有很大变化,甚至有时候无法完成训练。更别提把在某个任务上 work 的代码换到相似任务上的艰辛历程了。

如果你被这些问题困扰,那么你可能需要这份代码。由于我找不到符合我要求的轮子(2019-08),所以我只能自己造了,我认为这份代码解决了以上问题,符合以下要求:

  • 算法适用性广,适用于不同的任务(即便不做修改,也能完成不同的 Gym 的游戏)
  • 算法比较简单,代码可读性强(若某个结构加入后对性能提升小,那么删去此结构)
  • 算法训练时间短,训练稳定(训练时间不超过 1 小时,即使更换 RandomSeed)

通关双足机器人硬核版 (BipedalWalkerHardcore-v3), 训练比较快(旧记录是 10,000 + 轮) 使用 IntelAC 算法&#

你可能感兴趣的:(#,人工智能,深度学习,强化学习,Gym,深度强化学习,DDPG,pytorch)