离线强化学习与在线强化学习

首先将RL分为两大类:online RL 和 offline RL
offline RL:离线强化学习。学习过程中,不与环境进行交互,只从dataset中直接学习,而dataset是采用别的策略收集的数据,并且采集数据的策略并不是近似最优策略。
离线强化学习与在线强化学习_第1张图片
online RL:在线强化学习。学习过程中,智能体需要和环境进行交互。并且在线强化学习可分为on-policy RL和off-policy RL。on-policy采用的是当前策略搜集的数据训练模型,每条数据仅使用一次。off-policy训练采用的数据不需要是当前策略搜集的。
离线强化学习与在线强化学习_第2张图片离线强化学习与在线强化学习_第3张图片
Off-policy RL算法有:Q-learning,DQN,DDPG,SAC,etc.
On-policy RL算法有:REINFORCE,A3C,PPO,etc.

Off-line RL 和Imitation Learning的区别:Off-line RL中数据包括奖励,IL中数据不包括奖励。Off-line RL不要求数据是近似最优策略的得到的,IL中的专家数据基于得到搜集专家数据的策略是近似最优策略的假设。

参考自:RLChina2021暑期课,卢宗青老师第九课课件

你可能感兴趣的:(强化学习笔记,机器学习,算法,深度学习,强化学习)