[强化学习论文笔记(8)]:DDPG

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

论文地址

DDPG

笔记

出发点:

DQN的成功让人么意识到非线性的神经网络可以很好的拟合value function(过去认为是不可行的).

于是David Silver把自己过去的DPG 拿出来用神经网络修改了一番就成了DeepDPG.

文章总结DQN的成功原因:

  • off-policy, sample from a replay buffer to minimize correlations between samples.
  • 使用了target Q-network.

[强化学习论文笔记(8)]:DDPG_第1张图片

注意点

  • DDPG behavior policy 是\(\mu(s_t|\theta^mu)+N_t\),(确定性策略加噪声).
  • 用了replay buffer.
  • target network 是soft update的.

DDPG很适合高维连续动作空间.
在Atrai上DDPG比DQN需要的样本少.

你可能感兴趣的:([强化学习论文笔记(8)]:DDPG)