强化学习,深度强化学习

DQN的局限性

Atari 游戏所需的动作是离散的(有时间间隔的输出),相对低维的(只有少数几个动作),而实际的控制问题则是连续的,高维的。DQN无法直接应用到这样的领域,因为连续的值(比如输出一个速度)需要在每一步都作出优化迭代,DQN只是根据动作对Q值做优化。 
要直接应用DQN到连续动作领域,最简单的做法就是将连续动作离散化,也就是依然每个时间间隔输出一个动作值,把每个动作也离散化。但这样存在问题:

对比一下Atari才4到18个动作,如果变成几千的动作,几乎不可能训练。

并且简单的将动作离散化会忽略动作域的结构(structure of action domain),这对解决很多问题都很重要。

q-learning每次只需要执行一次动作得到(s,a,r,s')就可以更新一次;因为a'永远是最优的那个action,因此你估计的策略应该是最优的,即Q_π*(s,a)。而你生成样本时用的策略则不一定是最优的,因此是off-policy。

actor-critic

 异步优势actor-critic 算法Asynchronous advantage actor-critic , 即:A3C

 A3C 算法则是结合 Policy 和 Value Function 的产物,其中,基于 Policy 的方法,其优缺点总结如下:

  Advantages:
    1. Better convergence properties (更好的收敛属性)
    2. Effective in high-dimensional or continuous action spaces(在高维度和连续动作空间更加有效)
    3. Can learn stochastic policies(可以Stochastic 的策略)
  Disadvantages:
    1. Typically converge to a local rather than global optimum(通常得到的都是局部最优解)
    2. Evaluating a policy is typically inefficient and high variance (评价策略通常不是非常高效,并且有很高的偏差)


Policy Gradient

DPG算法(Deterministic policy gradient algorithm)

对DPG进行改造,运行它使用神经网络的函数近似来在大的状态空间和动作空间进行在线学习 online learning。我们就把这个算法叫做Deep DPG,简称 DDPG。

强化学习,深度强化学习_第1张图片

你可能感兴趣的:(强化学习,深度强化学习)