1)无模型(RL)
通过与环境的交互直接学习一个值函数或者策略。
高样本复杂度限制了其在仿真领域的应用
2)基于模型(MBRL)
通过与环境的交互学习一个模型。
通过学习环境的模型,基于模型的方法可以显著降低样本复杂度。
但是建模错误会削弱算法的有效性,这被称为模型偏差。
最近的方法是通过概率模型和集合的方法来描述模型的不确定性,缓解了模型偏差问题。
标准化基于模型的强化学习算法,文章收集了大量的MBRL算法,给出了18种算法基准测试环境。对照条件一致(即解决相同的问题,包括噪声环境),最后给出这些算法的性能比较。
文章基于标准OpenAI Gyml测试了18个环境中的11个MBRL算法和4个MFRL(model free RL)
将任务作为一个离散事件有限时域的马尔可夫决策过程。此过程由数组(S; A; p; r; ρ0; γ; H)决定。S代表状态空间,a代表动作空间,p代表跃迁动力学密度函数,r定义奖励函数,ρ0代表初始状态分布,γ代表损失因数,H代表问题视野。
与无模型RL相反,设计一个可微奖励函数,RL的目的是通过学习参数pai,使得奖励函数最优化。
在与环境重复交互之后,经验的转换存储在数据集D中,然后用来学习动态函数f ~φ。真实的情况下动态确定性,学到动力学函数f ~φ预测下一个状态。
在随机环境中,通常用高斯分布来表示动力学,
主要介绍三种算法
1)Dynastyle Algorithms, 2) Policy Search with Backpropagation through Time, and 3) Shooting Algorithms.
在此算法中,训练在以下两步中迭代。首先,使用初始策略,从与环境的交互中收集数据,然后用于学习动态模型。其次,使用学习的模型生成的想象数据改进策略,这类算法使用无模型算法学习策略,具有丰富的想象经验,不与真实环境交互。
ME-TRPO没有使用单一的模型,而是使用一组神经网络对动力学进行建模,这有效地克服了模型偏差。在策略改进步骤中,使用信任域策略优化更新策略(TRPO),学习动力学模型产生的经验。
是ME-TRPO的单项变体,将ME-TRPO中的单步L2损失改为多步L2-范数损失,用来训练动态系统。
MB-MPO通过meta-learning放弃了对精确模型的依赖,meta-learning是一种能够适应不同动态的策略。类似于ME-TRPO, MB-MPO通过学习神经网络进行集成。然而,集成中的每一个模型都被认为是一个不同的任务,以对其进行元训练。MB-MPO元训练策略可以快速适应集成的任何不同动态,这对模型偏差具有更强的鲁棒性。
与dyna风格的算法相反,学习的动态模型用于提供想象的数据,而通过时间反向传播的策略搜索利用了模型的导数。因此,这些算法能够计算出RL目标相对于策略的解析梯度,并相应地改进策略。
在PILCO中,使用高斯过程(GPs)来模拟环境的动态。动力学模型f为关于采集数据D的概率非参数函数。通过对每个策略参数θ进行计算目标函数解析梯度计算,策略πθ被训练来最优化RL的目标函数。训练过程在使用当前策略收集数据和改进策略之间迭代。GPs中的推理在高维环境中不具有可伸缩性,这限制了它在更简单领域中的应用。
在iLQG中,基于事实的动态被认为是由代理知道的。该算法对RL奖励函数采用二次逼近,对动力学采用线性逼近,采用线性二次调节器(LQR)对问题进行转化。利用动态规划方法,逼近问题的最优控制器是一个线性时变控制器。iLQG是一种模型预测控制(MPC)算法,它在每个时间步长上执行重新规划。
通过行为克隆,引导政策本质上是提取iLQG控制器πG到神经网络的策略πθ,从而来最小化目标函数。动力学模型为高斯线性时变。。。。。
SVG通过使用来自真实环境的观察,而不是想象的环境,解决了组合模型错误的问题。为了适应模型预测和实际转换之间的不匹配,SVG中的动态模型是概率性的。通过计算实际轨迹相对于该策略的解析梯度,改进了该策略。采用重参数化技术,允许通过随机采样进行反向传播。
这类算法提供了一种近似求解模型预测控制(MPC)中处理非线性动态和非凸奖励函数时的范围缩小问题的方法。随着神经网络在动力学建模中的应用,它们的普及程度有所提高。
RS优化行动序列来最大化预期计划奖励,在学习得到的动力学模型中。特别地,该代理从一个均匀分布中生成K个候选随机动作序列,并使用所学习的动态评估每个候选。最优操作序列近似为收益最高的操作序列。RS代理只应用来自最优序列的第一个操作,并在每个时间步重新计划。
一般来说,与无模型算法相比,RS具有更差的渐近性能。在MB-MF中,作者首先训练RS控制器πRS,然后将控制器提炼成一个神经网络策略πθ,最小化DKL(πθ(st);πRS)。在策略提取步骤之后,使用标准的无模型算法对策略进行微调。作者特别使用了TRPO[43]。
在该算法中,通过概率神经网络模型的集成来建模,该模型从有限的数据和网络容量中捕获认知不确定性,从基础真实动态的随机性中捕获随机不确定性。除了建模上的差异外,PETS-RS与RS是相同的,而在PETS-CEM中,在线优化问题采用交叉熵法来获得更好的解决方案。
在我们的基准测试中,我们使用了MFRL基线来量化样本的复杂性和MFRL与MBRL之间渐进的性能差距。具体地,我们比较了代表性的MFRL算法,包括信赖域策略优化(TRPO)、近端策略优化(b0)(PPO),孪生延迟深确定性政策梯度(TD3)[18],软行为-批评(SAC)。前两种算法是最先进的基于策略的MFRL算法,后两种算法被认为是最先进的非基于策略的MFRL算法。
本节主要介绍了1)现有的MBRL方法如何在具有不同复杂性的环境中相互比较和与MFRL方法比较(第4.3节)?2) MBRL算法是否对观测和动作噪声具有鲁棒性(章节4.4)?3) MBRL方法的主要瓶颈是什么?
为了回答最后一个问题,我们提出了MBRL方法固有的三种现象,分别是动力学瓶颈(4.5节)、规划层困境(4.6节)和提前终止困境(4.7节)。
1:为了适应传统的MBRL算法,如iLQG和GPS,我们修改了奖励函数,使相对于观测的梯度总是存在或可以近似。
2:我们注意到,在MBRL中没有办法提前终止,我们特别拥有原始环境和提前终止的变体,后缀ET表示。
3:OpenAI Gym中最初的Swimmer-v0是所有算法都无法解决的。因此,我们修改了速度传感器的位置,使其更容易求解。我们把这个简单的版本命名为“游泳者”,但仍然保留原来的名字