算法比较

1.1 离散与连续

1.1.1离散和连续是针对问题的,不是针对算法的。


连续有可能是温度,距离等。行动必须随着状态的变化而平滑变化,不能出现跳跃的情形。

1.1.2连续怎么解决

离散化:连续空间分解为有限的离散空间,通过表格形式一一对应存储状态值函数v(s)或状态-行动对值函数 Q(s,v(s))。

状态聚类,即以一定的标准或规则把若干连续的状态近似为一个状态,将该状态下的决策控制应用于其近似状态中。泛化能力差、离散粒度难以控制

值函数逼近:逼近结构(如神经网络、Tile Code、树等)逼近表示状态值函数 v(s)或状态-行动对值函数 Q(s,v(s)),逼近结构的输入为状态、行动等变量,输出为相应值函数。

①首先将连续状态或行动转化为离散状态或行动,然后利用值函数逼近结构实现状态-行动 Q 值函数或状态值函数 的表示。(结构比较简单,逼近结构的相关参数远远小于状态-行动或状态的个数,从而克服大规模系统中“维数灾”难题)

②利用逼近结构的输入可以为连续变量,直接实现状态-行动 Q 值函数或状态值函数的逼近表示,从而可以实现任意状态下的精确控制。

1.1.3 更新

通过智能主体和环境模型的反复交互,获得系统长期的奖惩折扣累积公式:其中γ(0<γ<1)为折扣因子

在策略π下,定义状态s性能值函数为:

定义状态-行动对 Q(s,a)性能值函数为:

状态-行动对值函数 Q(st,v(st))学习更新公式为:

连续状态-连续行动强化学习.pdf

1.2 离散动作

基于值函数的深度强化学习主要应用于离散动作空间的任务.

表3给出了深度强化学习算法在ALE平台上的性能比较, 其中no-ops表示智能体在训练开始后的一定步数内不采取动作, 以获取一些训练数据. human-start表示智能体在训练开始后先使用人类玩家的游戏数据初始化, 再使用强化学习训练. Rainbow在Atari视频游戏基准测试平台的数据效率和最终结果上都达到了业界最佳水平.

Rainbow.pdf

1.2 连续动作

面对连续动作空间的任务,基于策略梯度的深度强化学习算法能获得更好的决策效果

根据6种算法在相同40款Atari游戏的得分情况后计算所得. 具体计算方法是以DQN在Atari游戏的得分表现作为基准, 计算其他算法在同款游戏的得分增长率,最终以各个游戏的得分增长率的平均值作为衡量标准.

Scalable trust-region method.pdf


你可能感兴趣的:(算法比较)