强化学习方法归纳


强化学习方法归纳_第1张图片

图1 强化学习算法的分类

强化学习方法主要包括:基于价值的方法,如Q-learning,DQN;基于策略搜索的方法(Policy Gradient);以及两者的结合行为-评判模型(actor-critic)等。

一、强化学习算法基本思想

  • Q-learning一般针对离散空间,采用值迭代方法。以value推policy。Q-learning通过计算每一个状态动作的价值,然后选择价值最大的动作执行.

  • Policy Gradient针对连续场景,直接在策略空间求解,泛化更好,直推policy。不通过分析奖励值, 直接输出行为的方法.

    注:对比起以值为基础的方法,Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning, 它如果在无穷多的动作中计算价值, 从而选择行为, 这, 它可吃不消.

  • actor-critic可以看作是一个共轭,互相作用,策略也更稳定。

二、策略梯度方法(Policy-Gradient)

三、行为-评判模型(Actor-Critic)

参考文献:

  1. 深度增强学习之Policy Gradient方法1
  2. 深度增强学习前沿算法思想
  3. DRL之Policy Gradient, Deterministic Policy Gradient与Actor Critic
  4. 莫烦 Policy-Gradients
  5. 莫烦 Policy-Gradients 算法更新 (Tensorflow)
  6. Deep Reinforcement Learning: Pong from Pixels
  7. 深度强化学习:基于像素的乒乓游戏
  8. 教程 | Keras+OpenAI强化学习实践:行为-评判模型
  9. 强化学习(Reinforcement learning)中Actor-Critic算法该如何深入理解?
  10. Actor-Critic算法小结
  11. 什么是 Actor-Critic (强化学习)
  12. 莫烦 Actor-Critic
  13. 莫烦 Actor-Critic(Tensorflow)

你可能感兴趣的:(增强学习)