深度强化学习 on-policy 和 off-policy

目录

重点

on-policy

off-policy


重点

考查三个Policy的一致性:

  1. 当前正在学习的Current Policy;
  2. 生成训练数据时基于的Behavior Policy;
  3. 目标值即target value基于的Target Policy,Target Policy这个不一定有,取决于近似方法,比如只采用即时奖赏r近似的目标就没有参数。

判断Policy是否一致,就是看网络的参数是否一样。

on-policy

       所有的Policy参数均一致,比如A2C、A3C、TRPO、IMPALA、PPO、PG等。

深度强化学习 on-policy 和 off-policy_第1张图片

off-policy

        只要生成训练数据sample data的policy参数或目标网络的policy与当前正在学习的policy的网络参数不一致,
       就是off-policy, 比如DQN、DDQN、Dueling DQN、DDPG等

深度强化学习 on-policy 和 off-policy_第2张图片

比如DQN:

       Target Policy π 是基于target network(参数为\theta_{i-1})的greedy policy,即给定s,选择使target value最大的a;
       Behavior Policy b 是基于predict network(参数为\theta_{i})的\epsilon-greedy policy,同时保留一定的探索性; 
       二者基于不同的参数和不同的策略,为off-policy;
      当采用Experience Replay策略时,生成sample data的Policy也各不相同,与当前学习的Policy参数更不一致,为off-policy。     

     

 

你可能感兴趣的:(强化学习)