强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)

前言

如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。


value-based & policy-based

value-based:

  • 通过建模训练 Q(s, a),测试时基于 s 选取使 Q 值最大的 a
  • 典型算法:Sarsa、Q-learning、DQN

policy-based:

  • 通过建模训练 p(s, a),即基于 s 得到不同 a 的概率,测试时选取概率最大的 a
  • 典型算法:policy-gradient 思想下的 REINFORCE 算法

也有将这两种方式结合起来的算法,例如 Actor-Critic


on-policy & off-policy

on-policy:

  • the target and the behavior polices are the same
  • 典型算法:Sarsa

off-policy:

  • the learning is from the data off the target policy
  • 典型算法:Q-learning

算法对比说明 - Stackoverflow:
强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)_第1张图片
强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)_第2张图片
关键问题:为什么 Q-learning 是 off-policy 但不需要重要性采样?

  • Q ( S , A ) ← Q ( S , A ) + α [ R + γ max ⁡ a Q ( S ′ , a ) − Q ( S , A ) ] Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right] Q(S,A)Q(S,A)+α[R+γmaxaQ(S,a)Q(S,A)]
  • 更新公式中,A 来自 behavior policy,其只是决定了更新 Q 中的哪一个位置,但决定如何更新 Q 的 a 依然选取自 target policy,因此无需重要性采样

model-based & model-free

model-based:

  • 从交互数据中学习到环境模型,并利用这个模型加速策略迭代的过程,减少交互样本数
  • 典型算法:Model-based 强化学习论文合集

model-free:

  • 未使用交互数据做策略迭代之外的事
  • 典型算法:常听到的 DQN、DDPG、PPO 等

offline reinforcement learning

离线强化学习,即利用大量过往数据进行学习,且无可交互环境用于训练。

因此与之相对的,有可交互环境用于训练即为在线强化学习。

你可能感兴趣的:(机器学习(重要),深度学习,人工智能)