强化学习:有限马尔科夫过程

FMDs

FMDs(finite Markov decision processes):对在一种连续性过程中不断做出决策的形式化,也是强化学习问题理想的数学形式化:即当前的action产生的效果不仅影响即刻奖励,而且还会决定后续的states,进而影响未来的奖励。因此MDPs需要对即刻奖励延迟奖励tradeoff

3.1 Agent-Encvironment Interface

强化学习:有限马尔科夫过程_第1张图片

如图,假设时间是离散的,
在每一个时间点,agent接受来自于environment产生的state
;以此为条件选择一个action,
,动作的结果是产生一个数值Reward
,反馈给agent,并出现新的state

这样的一个MDPs产生的一系列称为一个trajectory

之所以称为有限马尔科夫过程,是因为状态集合和动作集合、奖励集合都是有限的。
上述过程定义了一个概率分布:


函数
给出的概率完全描述了有限MDPs。
Markov property:当前的state对未来产生影响的假设。

有了函数,即可计算:



通常,actions可以视为我们需要学习如何去做的任意决策,states可以视为任何对学习做决策有帮助的信息。

通常,不能被agent以任何形式改变的部分都视为属于Environment。比如Reward总是被视为属于环境部分,因为Reward的计算在不能被agent任意改变。总之,环境-代理的边界是代理的绝对控制极限。

归纳而言,MDPs抽象为三种信号在agentenvironment之间反复传播的模型:

  1. 代理agent做出的选择:即动作
  2. 代理做出选择的依据:即外部传来的状态
  3. 代理反复训练的目标:即rewards

3.2 Goals and Rewards

agent的目标是最大化累计奖励(cumulative reward); 用奖励作为目标是强化学习的最大特征之一。

3.3 Returns and Episodes

如何把学习目标:最大化奖励做到呢?这里,形式化的定义是必不可少的,如果时间以后得到的一系列奖励记为的话,之后我们期望得到的回报记为,这是关于一系列奖励的一个函数,简单看作全部相加的过程的话,我们得到:


这里的
是最后的时间点。
这里,任务可以分为

  • episodic task:如迷宫游戏;每一个episode的结束状态称为terminal state,很多个episode组成这样一个任务。

  • continuing task:如机器人,这样的任务有很长的生命周期,时间点几乎无限,所以如何衡量累计奖励呢?我们引入discounting的概念。
    discounting:,看公式:


    原来是一个参数值,在[0,1]范围,这样的话随着时间增长累计奖励也总是有限范围,这个参数称为折扣率(discount rate)

  • 这里看出强化学习的一个重要观点:连续时间点给出的回报之间是有关联的。

3.4 Unified Notation for Episodic and Continuing Tasks

你可能感兴趣的:(强化学习:有限马尔科夫过程)