CMBAC算法总结

论文原文:Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic

参考文章:【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法 - 知乎 (zhihu.com)

论文作者:MIRA Lab,王杰教授组


基于模型的强化学习算法旨在学习环境模型,并通过环境模型做决策,其样本效率高于无模型算法。基于模型的方法的样本效率取决于模型能否很好地近似环境。然而,学习一个精确的模型是具有挑战性的,特别是在复杂和嘈杂的环境中。为了解决这个问题,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。这是一种在不依赖精确学习模型的情况下实现了高样本效率的新方法。具体而言,CMBAC从一组不准确的模型中学习Q值函数的多个估计值,并使用其最小的k个估计值的均值(即保守估计值)来优化策略。CMBAC的保守估计能够有效地鼓励智能体避免不可靠的“有前景的动作”,即那些仅在一小部分模型中估计价值高的动作。实验结果表明,CMBAC方法在多个具有挑战性的控制任务上的样本效率明显优于现有的方法,并且该方法在噪声环境下比现有的方法更具鲁棒性。

总的来说CMBAC算法是这样的:

CMBAC算法流程图

首先是critic网络,critic网络接受和作为输入,分别通过(在上图中)个不同网络,然后从这个网络中随机选出(在上图中)个组成一个,排列组合一下就会有

Head的数量

这么多个,然后每一个会有一个输出,从这个里面去掉最大的个(在上图中),用剩下的去指导actor更新。

critic网络每个需要去拟合的值如下:

critic的拟合值

其中,是由

这个

采样得来,是由actor网络采样得来,是target-critic网络,于是,每个头的梯度下降公式是:

梯度下降公式

而actor网络的目标则是让下面这个公式取最小:

actor网络的目标是让公式(1)取最小

最后我们来看一下CMBAC的算法伪码:

CMBAC算法伪码

你可能感兴趣的:(CMBAC算法总结)