全称Deep Deterministic Policy Gradient,是对DPG、DQN的继承、发展和改进
核心:确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了
训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target