Reinforcement Learning: An Introduction Second Edition - Chapter 3

3 Finite Markov Decision Processes

在阅读本章的内容之前,我们需要注意中文版和英文版在表述和结构上的区别。

首先是表述上的区别,中文版存在一个小问题。在中文版中,马尔可夫决策过程是一类问题,书中使用的缩写是MDP。而在英文版中,常用的表述为MDPs或者a MDP,翻译成中文分别是马尔可夫决策过程和一个马尔可夫决策过程。中文版中马尔科夫决策过程的缩写为MDP,但是它对应的英文是Markov Decision Processes,因此缩写为MDPs更加合适。本文之后的内容将根据情况,把原中文版中的MDP替换为MDPs或a MDP。

其次是两个版本结构上的区别。英文版的结构如下:

The reinforcement learning problem → \rightarrow A reinforcement learning task → \rightarrow Satisfying the Markov property → \rightarrow A MDP

英文版在本章开始时使用 the reinforcement learning problem 的概念,之后一步步引出 MDPs 和 Finite MDPs。而中文版的书中弱化了英文版中 Markov property,a reinforcement learning task 和 a MDP 的概念和内容。中文版从一开始便使用马尔可夫决策过程代替 the reinforcement learning problem 进行表述。

在搞清楚这些区别后,这里为中文版的概述简要地补充了一些英文版的内容,以帮助我们全面理解:

在这一章中,我们将讨论广义上的强化学习问题(中文版可能并没有讨论广义强化学习问题,而是直接讨论属于马尔科夫决策过程的强化学习问题),任何适合解决这类问题的方法都被认为是强化学习方法。强化学习任务是强化学习问题的实例。如果一个强化学习任务满足马尔可夫属性,那么它就是一个马尔可夫决策过程(a MDP)。如果它的状态和动作空间是有限的,那么它就是一个有限马尔可夫决策过程(a Finite MDP)。Finite MDPs 对强化学习的理论特别重要。本书对它进行了广泛地探讨,它是理解90%的现代强化学习所需要的全部内容。

接下来,我们将正式介绍 Finite Markov Decision Processes (Finite MDPs) 。这个问题既涉及“evaluative feedback”,又涉及“发散联想”,即在不同情境(状态)下选择不同动作。MDPs的动作不仅影响当前的即时收益,还影响后续状态以及未来收益。因此,MDPs涉及了延迟收益,因此就有了在当前收益和延迟收益之间权衡的需求。在MDPs中,我们估计每个动作 a 在每个状态 s 中的价值 q ∗ q_* q(s,a),或者估计给定最优动作下的每个状态的价值 v ∗ v_* v(s)。

MDPs是强化学习问题在数学上的理想化形式。

As in all of artificial intelligence, there is a tension between breadth of applicability and mathematical tractability.

3.1 The Agent-Environment Interface

MDPs:一种通过交互式学习来实现目标的理论框架。

智能体(agent):进行学习及实施决策的机器。

环境(environment):智能体之外所有与其相互作用的事物。

收益是智能体在动作选择过程中想要最大化的数值,而智能体的目标是实现总收益的最大化(这是一种非正式的说法)。

练习3.1:任务一:练习投篮;状态:身体姿态,篮球位置;动作:身体各部位施加的力;收益:成功将篮球投入篮筐。任务二:背一页单词;状态:大脑对这一页单词的认知程度;动作:看单词,抄单词,读单词,听单词;收益:成功记住一个单词。任务三:智能台灯确定实时的亮度;状态:环境亮度,当地时间;动作:目标亮度;收益:一天中被使用者调节亮度的次数(这也可以是一个有监督学习?)。

练习3.2:1,MDPs框架不能有效表示状态不满足马尔可夫性的任务。如果任务的状态无法提供对未来有用的完整信息,此时状态不满足马尔可夫性。玩射击游戏时,你的队友和对手都可能会对状态造成影响,但你无法直接得知。2,不能获得所有的s和r的任务,比如学习围棋游戏。3,不能明确描述状态的任务,比如让智能体学习玩电竞游戏,这很难去定义任务的状态(其实MDPs可以从high level表示这个任务)。

练习3.3:划分智能体-环境的界限的基本原则是,根据任务的目的进行选择。当任务的目的是安全地抵达目的地时, 通过油门、方向盘和刹车来定义动作是更好的一种划分。这种划分可以更好描述动作对状态造成的影响,使智能体更容易习得任务的策略。

例3.3和练习3.4:这个例子中,不同的(状态,动作),对应不同的收益集合。R(high, search) = { r s e a r c h r_{search} rsearch},R(high, wait) = { r w a i t r_{wait} rwait},R(low, search) = { r s e a r c h r_{search} rsearch, -3},R(low, wait) = { r w a i t r_{wait} rwait},R(low, recharge) = {0}。

3.2 Goals and Rewards

The reward hypothesis.

3.3 Returns and Episodes

练习3.7:因为走迷宫机器人的收益设置为逃脱迷宫时收益+1,其余时刻收益为0,这导致机器人走迷宫花费的步数不会影响总汇报。而我们的目标是机器人能尽快走出迷宫。这样的收益设置并不能真正表明我们的目标。为了鼓励机器人尽快走出迷宫,可以为每一时刻设置一个微量负值收益,定义为时间的函数,作为对长时间未走出迷宫的惩罚。

3.4 Unified Notation for Episodic and Continuing Tasks

None.

3.5 Policies and Value Functions

练习3.16:收益值的符号在分幕式任务中很重要。收益加上一个常数c可能会对任务的结果产生影响。假设在未走出迷宫之前,每个时刻都给予智能体一个微小负收益来惩罚它逃离迷宫所花费的时间,我们称这个收益为时间惩罚项。为所有收益都加上一个常数c,如果常数c大于时间惩罚项,智能体将会在每一个时刻收到一个正收益。智能体会为了持续获得收益而呆在迷宫中,收益最终将趋于无穷。

3.6 Optimal Policies and Optimal Value Functions

对于有限MDPs,可以通过比较价值函数精确地定义一个最优策略。在本质上,价值函数定义了策略之间的部分排序。最优策略可能不止一个,它们共享一个最优价值函数。

对于有限MDPs,如果环境的动态特性 p 已知,那么理论上可以求解 v ∗ v_* v 方程组。类似地,可以求解 q ∗ q_* q 方程组。

一旦得到 v ∗ v_* v ,确定一个最优策略就比较容易了。如果一个策略中,只有在贝尔曼最优方程的条件下产生最大价值的动作的概率非零,那么这个策略就是一个最优策略。对于最优价值函数 v ∗ v_* v 来说,任何贪心策略都是最优策略。

在给定 q ∗ q_* q 的情况下,选择最优动作的过程变得更加容易。

通过显示求解贝尔曼最优方程来找到一个最优策略的方法,很少是直接有效的。在强化学习中,我们通常只能用近似解法来解决那些状态较大的问题。

许多不同的决策方法都被视为近似求解贝尔曼最优方程的途径。例如,启发式搜索方法(A*等),动态规划算法。

3.7 Optimality and Approximation

有很多任务,最优策略通常需要极大量的计算资源。真实情况下的智能体只能采用不同程度的近似方法。智能体所面临的问题:计算力,存储容量。价值函数采用近似算法,通常使用紧凑的参数化函数表示方法。

强化学习方法和其他解决MDP问题的近似方法的重要区别:强化学习在线运行的本质。

如果一个强化学习任务满足马尔可夫属性,那么它就是一个马尔可夫决策过程。大部分强化学习问题都属于MDP问题,但MDP问题不一定是强化学习问题,它们可以使用其他方法/近似方法(例如直接在策略空间搜索,线性规划法,随机最优控制中的自适应最优控制方法等)解决。如果一个MDP可以使用强化学习方法解决,那么它就可以算作一个强化学习任务。

3.8 Summary

None.

Bibliographical and Historical Remarks

马尔可夫决策过程产生自最优控制领域。

你可能感兴趣的:(Reinforcement,Learning,人工智能,机器学习)