强化学习--DDPG

DDPG

强化学习

  • DDPG
  • DPG
  • DDPG


DPG

DQN算法的一个主要缺点就是不能用于连续动作空间,这是因为在DQN算法中动作是通过贪心策略或者说argmax的方式来从Q函数间接得到,这里Q函数就相当于DDPG算法中的Critic。

而要想适配连续动作空间,我们干脆就将选择动作的过程变成一个直接从状态映射到具体动作的函数。

DDPG

在DPG算法 的基础上,再结合一些技巧,就是DDPG算法了,这些技巧既包括DQN算法中也用到的目标网络、经验回放等,也包括引入噪声来增加策略的探索性。

不知道读者有没有发现,在强化学习基础算法的研究改进当中,基本无外乎几个亘古不变的主题:首先是如何提高对值函数的估计,保证其准确性,即尽量无偏且低方差;其次是如何提高探索以及平衡探索-利用的问题,尤其在探索性比较差的确定性策略中。

你可能感兴趣的:(强化学习,深度学习,人工智能)