Conservative Q-Learning for Offline Reinforcement Learning

Conservative Q-Learning for Offline Reinforcement Learning

  1. 要解决的问题

离线强化学习中数据集和学习策略之间的分布偏移导致值高估问题,对大型静态数据集学习效率低问题。

由于π被训练为最大化q值,它可能会偏向具有错误的高q值的out- distribution (OOD)动作。在标准的RL中,这种错误可以通过在环境中尝试一个动作并观察它的实际值来纠正。然而,由于无法与环境交互,在离线RL中处理OOD动作的q值具有挑战性。

  1. 中心思想:

Conservative是“保守”,之前的off-line会面临over-estimate Q的问题,那我们加入正则项使得我们的Q estimator更加保守。

它旨在通过学习一个保守q函数来解决这些限制,使得策略在这个q函数得到的值是其真实值的下界。

  1. 具体方法

在实践中,CQL用一个简单的q值正则化器来增加标准的Bellman错误目标,这个正则化器可以直接在现有的深度q学习和actor- critical实现之上实现。Conservative Q-Learning for Offline Reinforcement Learning_第1张图片

 

Conservative Q-Learning for Offline Reinforcement Learning_第2张图片

 

Conservative Q-Learning for Offline Reinforcement Learning_第3张图片

Conservative Q-Learning for Offline Reinforcement Learning_第4张图片

 

Conservative Q-Learning for Offline Reinforcement Learning_第5张图片

他猜的是Vπ????

Conservative Q-Learning for Offline Reinforcement Learning_第6张图片

算法流程:

Conservative Q-Learning for Offline Reinforcement Learning_第7张图片

Conservative Q-Learning for Offline Reinforcement Learning_第8张图片

SCA这个也是一种动作批判做法(还没详细看)。

(仅使用actor- critical)通过Gπ梯度提高策略πφ

SAC-style熵正则化的φ步骤:

µ(s, a)状态-动作分布。

en µ(a|s)策略。

 

  1. 使用方法

实现细节。对于连续控制实验,我们的算法只需要在soft actor- critical (SAC)[21]的标准实现之上增加20行代码,对于离散控制实验,则需要在QR-DQN[9]的标准实现之上增加20行代码。对于连续控制,权衡因子α通过拉格朗日双梯度下降自动调整,对于离散控制,它固定在附录F中描述的常数值。我们使用SAC的默认超参数,除了策略的学习速率被选择为3e-5 (q函数的vs 3e-4或1e-4),感觉像那种即插即用的方法。

 

  1. 实际作用

总而言之,CQL优化了一个定义明确的、惩罚性的经验RL目标,并对行为策略进行了高可信度的安全策略改进。改进的程度受到较高的抽样误差的负面影响,随着观察到的样本越多,抽样误差越小。

  1. 实验证明

证明他的作用,即推测减去真实值变大了。

Conservative Q-Learning for Offline Reinforcement Learning_第9张图片

Gym

Conservative Q-Learning for Offline Reinforcement Learning_第10张图片

Atari

Conservative Q-Learning for Offline Reinforcement Learning_第11张图片

D4RL

Conservative Q-Learning for Offline Reinforcement Learning_第12张图片

 

Conservative Q-Learning for Offline Reinforcement Learning_第13张图片

策略是指的是智能体(agent)在不同的状态(state)下选择如何选择动作(action)

Conservative Q-Learning for Offline Reinforcement Learning_第14张图片

我们这样定义 - 评估动作的价值,我们称为Q值:它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望; - 评估状态的价值,我们称为V值:它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。

actor-critic algorithm

Conservative Q-Learning for Offline Reinforcement Learning_第15张图片

你可能感兴趣的:(人工智能,算法)