深度强化学习调参技巧:以DQN、DDPG、TD3、PPO、SAC等算法为例

  • 深度强化学习 Deep Reinforcement Learning 简称为 DRL
  • 运行 DRL 算法代码(实际使用 + 调整参数),需要更多 DL 基础
  • 阅读 DRL 算法论文(理解原理 + 改进算法),需要更多 RL 基础

深度强化学习算法能训练能智能体: 机械臂取物、飞行器避障、控制交通灯、机器人移动、交易股票、训练基站波束成形选择合适的权重超越传统算法。实际使用时,问题却很多:

  • 一开始会问:算法那么多,要选哪个?训练环境怎么写?
  • 选完后会问:**算法怎么调参?**收益函数 reward function 要怎么改?(看的人多,有空再写,太长了)

后一个问题,就是当前这篇文章 深度强化学习调参技巧:以 D3QN、TD3、PPO、SAC 算法为例

  • 目录
    • 训练环境怎么写?循序渐进,三个阶段
    • 算法怎么调参?

    • 在 off-policy 算法中常见的超参数
    • 在 on-policy 算法中常见的超参数
    • 与离散动作探索有关的超参数
    • 与连续动作探索有关的超参数
    • 探索衰减、退火

    • D3QN 特有的超参数
    • TD3 特有的超参数
    • PPO+GAE 特有的超参数
    • SAC 特有的超参数

    • 为什么我的算法越训练越差?

1.训练环境怎么写

强化学习里的 env.reset(

你可能感兴趣的:(#,强化学习相关技巧(调参,画图等),算法,人工智能,深度学习,强化学习,深度强化学习,DDPG,TD3)