人工智障学习笔记——强化学习(3)蒙特卡洛方法

上一章我们了解了马尔可夫决策过程的动态规划方法,但是动态要求一个完全已知的环境模型,这在现实中是很难做到的。另外,当状态数量较大的时候,动态规划法的效率也将是一个问题。所以本章我们引用一种不需要完整的环境模型的方法概念——蒙特卡罗方法。

蒙特卡洛是一个赌城的名字。又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。相对于确定性的算法,蒙特卡洛方法是基于抽样数据来计算结果。

蒙特卡洛方法在强化学习中的基本思路为:模拟 -> 抽样 -> 估值。我们已知强化学习的目的是得到最优策略。蒙特卡罗方法仅仅需要经验就可以求解最优策略,这些经验可以在线获得或者根据某种模拟机制获得。我们仅将蒙特卡罗方法定义在episode task上,所谓的episode task就是指不管采取哪种策略π,都会在有限时间内到达终止状态并获得回报的任务。比如玩棋类游戏,在有限步数以后总能达到输赢或者平局的结果并获得相应回报。所谓经验其实就是训练样本。比如在初始状态s,遵循策略π,最终获得了总回报R,这就是一个样本。如果我们有许多这样的样本,就可以估计在状态s下,遵循策略π的期望回报,也就是状态值函数Vπ(s)了。蒙特卡罗方法就是依靠样本的平均回报来解决增强学习问题的。

策略评估迭代过程:
1. 探索 - 选择一个状态(s, a)。
2. 模拟 - 使用当前策略π,进行一次模拟,从当前状态(s, a)到结束,随机产生一段情节(episode)。
3. 抽样 - 获得这段情节上的每个状态(s, a)的回报G(s,a),记录G(s,a)到集合Returns(s,a)。
4. 估值 - q(s, a) = Returns(s, a)的平均值。
(因为状态(s, a)可能会被多次选择,所以状态(s, a)有一组回报值。)

策略优化 - 使用新的行动价值q(s,a)优化策略π(s)。

策略评估迭代步骤一般会针对所有的状态-行动,或者一个起始(s0,a0)下的所有状态-行动。这也说明持续探索(continual exploration)是蒙特卡洛方法的主题。模拟过程 - 会模拟到结束。是前进式的,随机选择下一个行动,一直前进到结束为止。因此可以看出蒙特卡洛方法需要大量的迭代,才能正确的找到最优策略。策略评估是计算行动价值(q(s,a))。

蒙特卡罗策略估计(Monte Carlo Policy evalution)

首先考虑用蒙特卡罗方法来学习状态值函数Vπ(s)。估计Vπ(s)的一个明显的方法是对于所有到达过该状态的回报取平均值。这里又分为first-visit MC methods和every-visit MC methods。这里,我们只考虑first MC methods,即在一个episode内,我们只记录s的第一次访问,并对它取平均回报。当我们经过无穷多的episode后,Vπ(s)的估计值将收敛于其真实值。

动作值函数的MC估计(Mote Carlo Estimation of Action Values)

在状态转移概率p(s'|a,s)已知的情况下,策略估计后有了新的值函数,我们就可以进行策略改进了,只需要看哪个动作能获得最大的期望累积回报就可以。然而在没有准确的状态转移概率的情况下这是不可行的。为此,我们需要估计动作值函数Qπ(s,a)。Qπ(s,a)的估计方法前面类似,即在状态s下采用动作a,后续遵循策略π获得的期望累积回报即为Qπ(s,a),依然用平均回报来估计它。有了Q值,就可以进行策略改进了。


持续探索(Maintaining Exploration)

我们通过一些样本来估计Q和V,并且在未来执行估值最大的动作。这里就存在一个问题,假设在某个确定状态s0下,能执行a0, a1, a2这三个动作,如果智能体已经估计了两个Q函数值,如Q(s0,a0), Q(s0,a1),且Q(s0,a0)>Q(s0,a1),那么它在未来将只会执行一个确定的动作a0。这样我们就无法更新Q(s0,a1)的估值和获得Q(s0,a2)的估值了。这样的后果是,我们无法保证Q(s0,a0)就是s0下最大的Q函数。Maintaining Exploration的思想很简单,就是用soft policies来替换确定性策略,使所有的动作都有可能被执行。比如其中的一种方法是ε-greedy policy,即在所有的状态下,用1-ε的概率来执行当前的最优动作a0,ε的概率来执行其他动作a1, a2。这样我们就可以获得所有动作的估计值,然后通过慢慢减少ε值,最终使算法收敛,并得到最优策略。简单起见,在下面MC控制中,我们使用exploring start,即仅在第一步令所有的a都有一个非零的概率被选中。


蒙特卡罗控制(Mote Carlo Control)

MC版本的策略迭代过程:


值函数Qπ(s,a)的估计值需要在无穷多episode后才能收敛到其真实值。这样的话策略迭代必然是低效的。我们看动态规则的值迭代算法,每次都不用完整的策略估计,而仅仅使用值函数的近似值进行迭代,这里也用到了类似的思想。每次策略的近似值,然后用这个近似值来更新得到一个近似的策略,并最终收敛到最优策略。这也就是我们常说的广义策略迭代思想。即:在每个episode后都重新估计下动作值函数(尽管不是真实值),然后根据近似的动作值函数,进行策略更新。

总结:

蒙特卡洛方法的适用条件:1.环境是可模拟的:在实际的应用中,模拟容易实现。相对的,了解环境的完整知识反而比较困难。由于环境可模拟,我们就可以抽样。2.只适合情节性任务(episodic tasks)因为,需要抽样完成的结果,只适合有限步骤的情节性任务。尽管蒙特卡罗方法和动态规划方法存在诸多不同,但蒙特卡罗方法也借鉴了很多动态规划中的思想。比如他们都是首先进行策略估计,计算特定策略π对应的Vπ和Qπ,然后进行策略改进,最终形成策略迭代。


你可能感兴趣的:(人工智障)