DDPG算法

DDPG算法

全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进

  • 对DQN算法:使其能够适用于连续动作空间
  • 对DPG算法:使用神经网络来拟合函数

算法介绍

核心:确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了

训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target

算法伪代码

DDPG算法_第1张图片

你可能感兴趣的:(强化学习,算法)