强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数
1.强化学习通用参数设置(1)强化学习算法选用目前推荐的使用的算法主要是:离散控制问题建议算法:①D3QN——D3指的是DuelingDoubleDQN,主要集成了DoubleDQN与DuelingDQN的方法架构,另可与NoisyDQN来配合γ-greedy方法来提升探索效率。②SAC-Discrete——提出的主要目标是用于解决混合动作空间中的决策问题,将输出的动作矢量当作每个动作的执行概率,