马尔可夫决策过程及典型例子(一)

一、马尔科夫决策过程

        满足马尔可夫性质的强化学习任务被称为马尔可夫决策过程(MDP, Markov decision process,)。如果状态和动作空间是有限的,那么它被称为有限马尔可夫决策过程。有限MDP对于强化学习理论尤其重要。

        有限MDP是由其状态和动作集以及交互环境定义的。给定任何状态和动作sa,每个可能的下一个状态和奖励对的概率可以表示为

        这些量完全指定了有限状态MDP,由此可以计算出关于环境的任何其他信息,例如状态-动作对的预期奖励,

状态转移概率

以及状态-行动-下一个状态的预期回报

二、典型的示例

        示例1:扫地机器人可以通过简化变成MDP的一个简单示例。有限MARKOV决策过程提供了更多细节。(我们的目的是制作一个简单的例子,而不是一个特别现实的例子。)回想一下,智能体有时会根据外部事件(或机器人控制系统的其他部分)做出决定。每次这样的时候,机器人都会决定是否应该(1)主动寻找罐头,(2)保持静止,等待有人给它带来罐头,或者(3)回到基地给电池充电。假设环境的工作方式如下。找到罐头的最好方法是积极寻找,但这会耗尽机器人的电池,而等待则不会。每当机器人进行搜索时,其电池都有可能耗尽。在这种情况下,机器人必须关闭并等待救援(产生较低的奖励)。

        智能体只根据电池的能量水平做出决定。它可以区分高和低两个级别,使得状态集为S={high,low}。让我们把可能的决定——智能体的行动——称为等待、搜索和充值。当能量水平很高时,充电总是愚蠢的,所以我们不将其包括在该状态的动作集中。智能体的动作集是

        如果能量水平很高,那么总是可以完成一段时间的主动搜索,而不会有耗尽电池的风险。从高能级开始的搜索周期使能级以概率α为高,并以概率1-α将其降低到低。另一方面,当能级较低时进行的一段时间的搜索使其以概率β变低,并以概率1-β耗尽电池。在后一种情况下,必须考虑机器人的能量剩余,然后将电池重新充电至高电位。机器人收集的每个罐子都算作一个单位奖励,而每当机器人必须获取能量时,就会得到的奖励。为了简单起见,假设在充电的过程中无法收集到任何罐子,并且在电池耗尽的步骤中也无法收集到罐子。这个系统是一个有限的MDP,我们可以写下转换概率和预期回报

马尔可夫决策过程及典型例子(一)_第1张图片

你可能感兴趣的:(机器学习,人工智能)