【17】 强化学习 17章 前沿技术

文章目录

  • 名词
        • 离轨策略
        • 折扣过程
        • 折扣系数
        • 价值函数
        • 广义策略迭代(4.6节)或者“行动器一评判器”算法
  • 正文
  • 17.1 广义价值函数和辅助任务
    • 1、广义价值函数是什么?
    • 2、辅助任务是什么?
      • 定义: 预测和控制不同种类的信号特征
    • 作用
  • 17.2、基于选项理论的时序摘要
    • 人类可以无缝地在各个时间层次上切换,而没有一点转换的痕迹。那么MDP框架可不可以被拉伸,从而同步地覆盖所有这些时间层次呢?
  • 17.3 观测量和状态
  • 17.4 设计收益信号
  • 5 遗留问题
  • 6、
  • 参考文献 历史评注

名词

离轨策略

允许函数以任意的目标策略作为条件

折扣过程

12.8节中, 折扣过程 推广为 一个终止函数, 使得可以在每个时刻采用不同的折扣系数来作为回报。

折扣系数

价值函数

广义策略迭代(4.6节)或者“行动器一评判器”算法

正文

17.1 广义价值函数和辅助任务

1、广义价值函数是什么?

离轨策略允许函数以任意的目标策略作为条件,终止函数的引入,使得可以在每个时刻采用不同的折扣系数来作为回报。
允许我们在一个任意的、状态相关的视界,可以预测未来能得到多少收益。

下一步:将收益推广, 允许对任意信号的预测。

比如,声音、颜色等信号未来的值之和进行预测, 而不止对未来的收益值之和进行预测。

不管我没累加的是什么信号, 我们都称其为 预测的累积量 : 累计信号: 在这里插入图片描述

广义价值函数GVF:
在这里插入图片描述

像传统的价值函数(例如v或者q)一样,这是一个可以用参数化的形式逼近的理想函数,我们可以继续用v(s,w)来标记它,尽管对于每一种π、γ、Ct 的选择,在每次预测过程中都会有一个不同的参数w。因为一个GVF并不必然与收益有联系,因此将其称为值函数可能有些用词不当。我们可以简单地称之为“预测",或者用更独特的方式说:预报(由Ring提出,准备发表)。不管如何称呼它,它的形式都和价值函数一样,因此可以用本书中提出的学习近似价值函数的方法学出来。在学习预测值的同时,我们也可以采用广义策略迭代(4.6节)或者“行动器一评判器”算法,通过最大化预测值来学习策略。用这种方式,一个智能体可以学习如何预测和控制大量不同类型的信号,而不仅仅是长期收益。

为什么预测和控制长期收益之外的信号可能有用呢?这类信号控制任务是在最大化收益的主任务之外额外添加的辅助任务。一个答案是,预测和控制许多不同种类的信号可以构建一种强大的环境模型。正如我们在第8章所述,一个好的环境模型可以让智能体更高效地得到收益。清楚地回答这个问题需要一些其他的概念,我们将在下一节中介绍。首先我们考虑两个相对简单的方法,在这些方法中,多个不同种类的预测问题会对强化学习智能体的学习有所帮助。

2、辅助任务是什么?

辅助任务帮助主任务的一个简单情形是它们可能需要一些相同的表征。有些辅助任务可能更简单,延迟更小,动作和结果之间的关联关系更加明晰。如果在简单的辅助任务中,可以很早发现好的特征,那么这些特征可能会显著地加速主任务的学习。没有什么理由可以解释为什么这是对的,但是在很多情况下这看起来很有道理。例如,如果你学习在很短的时间内(例如几秒钟)预测和控制你的传感器,那么你可能会想出这个目标物体的部分特点,这将对预测和控制长期收益有很大的帮助。

  • 如果在简单的辅助任务中,可以很早发现好的特征,那么这些特征可能会显著地加速主任务的学习。
  • 如果你学习在很短的时间内(例如几秒钟)预测和控制你的传感器,那么你可能会想出这个目标物体的部分特点,这将对预测和控制长期收益有很大的帮助。

我们可能会想象一个人工神经网络(ANN),其中的最后一层被分为好几个部分,我们称它们为头部,每一个都在处理不同的任务。一个头部可能产生主任务的价值函数预测(将收益作为其累计量),而其他的头部可能产生很多辅助任务的解。所有的头部都可以通过随机梯度下降法反向传播误差到同一个“身体”里一即它们前面所共享的网络部分一从第二层到最后一层都在尝试构建表示以提供必要的信息给头部。研究人员们尝试了各种各样的辅助任务,例如预测像素的变化,预测下一时间点的收益,以及预测回报的概率分布。在很多种情况下这个方法都显示出了对主任务学习的加速效果( Jaderbergetal.,2017)。类似地,作为一种有助于状态预测的方法,多预测的方法也被反复地提出过(见17.3节)。

另一个理解为何学习辅助任务可以提升表现的简单的方法是类比于经典条件反射这心理学现象(14.2节)。一种理解经典条件反射的方法是,进化使我们内置(非学习式的)了一个从特定信号的预测值到特定动作之间的反射关联。例如,人和许多其他动物看起来有一种内置的眨眼反射机制,当对于眼球将收到戳击的预测值超过某个阈值的时候,就会闭眼。这个预测是学出来的,但是预测和闭眼之间的关联是内置的,因此动物可以避免眼球受到突然的戳击。类似地,恐惧和心率加快或者愣住之间的关联、也可以是内置的,智能体的设计者们可以做一些类似的事情,例如,自动驾驶汽车可以学习“向前开车不会导致碰撞”,然后将其“停车/避开”的行为建立一个内置反射,当预测值超过一定阈值时触发。或者考虑一个真空清洁机器人,其可以学习预测是否会在返回充电装置前用尽电量,并且在该预测值变为非零时,条件反射一样地掉头移动到充电站。准确的预测取决于房间的大小、机器人所在的房间、电池的年龄,机器人的设计者很难了解所有这些细节,让设计者使用传感器的手段设计一个有效的算法来决定是否回头是很困难的,但是使学习到的预测则很容易做到这一点。我们预见到很多方法都会像这样将学习到的预测和内置控制行为的算法有效结合在一起。
最后,也许辅助任务最重要的作用,是改进了我们本书之前所做的假设:即状态的表不是固定的,而且智能体知道这些表示。为了解释这个重要作用,我们首先要回过头来了本书所做的假设的重要性以及去除它所带来的影响。这将在17.3中介绍。

定义: 预测和控制不同种类的信号特征

作用

17.2、基于选项理论的时序摘要

马尔可夫决策过程形式上的一个吸引人的地方是,它可以有效地用在不同时间尺度的任务上。我们可以用它来形式化许多任务,例如决定收缩哪一块肌肉来抓取一个目标,乘坐哪一架航班方便地到达一个遥远的城市,选择哪一种工作来过上满意的生活。这些任务在时间尺度上差异很大,然而每一个都可以表达成马尔可夫决策过程(MDP),然后用本书中讲述的规划和学习过程完成。所有这些任务都涉及由与环境的相互作用、序贯决策以及一个随时间累积的收益构成的目标,因此它们都可以被形式化成马尔可夫决策过程。

尽管所有这些任务都可以被形式化为MDP,但是我们可能认为它们不能被形式化为单一的MDP,因为这些过程涉及的时间尺度都不同,例如选择的种类和动作都截然不同。例如,把预定跨洲的航班和肌肉收缩放在同一时间尺度上是不合适的。但是对于其他任务而言,例如抓取、掷标枪、击打棒球,用肌肉收缩的层次来刻画可能刚刚好。人类可以无缝地在各个时间层次上切换,而没有一点转换的痕迹。那么MDP框架可不可以被拉伸,从而同步地覆盖所有这些时间层次呢?

人类可以无缝地在各个时间层次上切换,而没有一点转换的痕迹。那么MDP框架可不可以被拉伸,从而同步地覆盖所有这些时间层次呢?

也许是可以的,一种流行的观点是:先形式化一个非常小的时间尺度上的MDP,从而许在更高的层次上使用扩展动作(毎个时刻对应于更低层次上的多个时刻)的规划。为了能到这一点,我们需要使用一个展开到多个时刻的“动作方针”的概念,井引人一个“终止”的概念。对这两个概念的通用的形式化方式是将它们用一个策略和一个状态相关的终止函数γ来表达,就像在GVF中定义的那样。我们将这样的一个“策略终止函数”二元组定义为一种广义的动作,称之为“选项"。在t时刻执行一个选项 ω = < π ω , γ ω > ω=<π_ω,γ_ω> ω=<πωγω> 就表示从 π ω ( ⋅ ∣ S t ) π_ω(·|S_t) πω(St) 中获得一个动作 A t A_t At,然后在t+1时刻以 1 − γ ω ( S ( t + 1 ) ) 1-γ_ω(S_(t+1)) 1γω(S(t+1))的概率终止。如果选项不在 t + 1 t+1 t+1时刻停止,那么 A ( t + 1 ) A_(t+1) A(t+1)从 $ π_ω(· |S_(t+1))$ 中选择,而且选项在t+2时刻以 1 − γ ω ( S ( t + 2 ) ) 1-γ_ω(S_(t+2)) 1γω(S(t+2))的概率终止。很容易就可以把低层次的动作看作选项的一种特例一每一个动作a都对应于一个选项(π_ω,γ_ω),这个选项的策略会选出一个动作(对于每个 s ∈ S , π ω ( s ) = a s∈S,π_ω(s)=a sS,πω(s)=a),并且其终止函数是零(对于个 s ∈ S + , γ ω ( s ) = 0 s∈S+,γ_ω(s)=0 sS+,γω(s)=0)。选项有效地扩展了动作空间。智能体可以选择一个低层次的动作/选项,在单步之后终止,或者选一个扩展的选项,它可能在执行多步之后才终止。

"选项”的架构设计允许它与低级别的动作进行角色互换。例如,一个动作价值函数的记号 q π q_π qπ可以被自然地推广为选项值函数,它以状态和选项作为输人,仍然返回期望回报,只是产生这个期望回报的过程包括了从输入状态开始,执行输人的选项直到它终止,并在之后继续遵循策略π的整个过程。我们也可以把策略的概念推广到层次化策略,它选择的是选项而不是动作,其中每个选项被选中之后,都会一直运行到终止。在这些思想下,本书中的许多算法都可以推广到学习近似的选项值函数和层次化的策略。在最简单的情况下,学到的策略从选项开始直接跳到选项结柬,更新只在选项结束的时候出现。更精细一些的做法是,更新可以在每一个时刻进行,使用一种“选项内部”的学习算法,这通常需要离轨策略算法。

选项的思想带来的最重要的推广也许是第3、4和8章中所提出的环境模型。关于“动作”的传统模型是状态转移概率和采取这个动作的即时收益的期望。那么传统的动作模型如何推广到选项模型呢?对于选项而言,合适的模型也应该包含有两部分:一个部分对应于执行选项后产生的状态转移结果;另一个对应于执行选项过程中的累积收益的期望。选项模型的收益部分,类比于“状态-动作”二元组的期望收益式(35),对于所有的
选项和所有的状态s∈S,定义为:

在这里插入图片描述

其中,τ是一个随机时刻,代表选项的终止时刻,它由参数 γ ω γ_ω γω决定。在这个等式中,需
要注意总体折扣系数 γ 所扮演的角色一一折扣是由γ决定的,但是选项的终止是由 γ ω γ_ω γω
决定的。一个选项模型的状态转移部分则更为精巧。这部分模型刻画了每一个可能的选项结果状态的概率(像在式3.4中一样),但是在这里,可能在多个时刻之后才能到达这个选项结果的状态,其中的每个状态都有不同程度的折扣。选项ω的这部分模型在如下公式中指定了ω的每个可能的起始状态s,以及ω的每个可能的终止状态 s ‘ s` s

在这里插入图片描述
在这里插入图片描述

注意,由于存在折扣系数项 γ   k γ~k γ k,这里的p)
不再是一个转移概率,并且不再对于有可能的 s ‘ s` s求和为1(无论如何,我们会继续在P中使用记号 ∣ |
上面关于选项模型的状态转移部分的定义使得我们可以为所有的选项定义形式化的贝尔曼方程和动态规划算法,其中也包括作为选项特例的低级别的动作。例如,对于层次化策略π来说,通用的贝尔曼方程是:

在这里插入图片描述
其中, Ω ( s ) Ω_(s) Ω(s)表示状态s中所有可行的选项的集合。如果 Ω ( s ) Ω_(s) Ω(s)仅仅包含低级别的动作,那这个方程退化为通常的贝尔曼方程(式3.14),唯一不同的是γ被包含在新定义的p中,即式17.3,因此在此处没有出现。类似地,相应的选项的规划算法中也没有γ。例如,作为式(4.10)的推广,带选项的价值送代算法是:

在这里插入图片描述
如果Ω(s)包含了每个状态s下所有可行的低级别动作,那么这个算法会收敛到通常意义上的 v ∗ v* v,从中我们可以计算出最优的策略。然而,如果我们能够在每一个状态下,只考虑所有可能选项Ω(s)的某个子集进行规划,则可能更有用。这样的话价值送代将会收敛到限制在给定的选项子集下的最优的层次化策略。尽管这个策略从全局看可能是次优的,但收敛可能会更快,因为我们只考虑较少的选项,而且每个选项都可以在时间上跳跃多步。

为了在有选项的情况下做规划,我们必须已知选项模型,或者学出选项模型。一个学出选项模型的自然方法是使用一系列的GVF(我们在上一节中定义过)来对它进行表示长后使用本书中提到的方法来学习GVF。对于选项模型的收益部分,不难看出如何做到这一点。我们仅仅需要把GVF的累计量选为收益(Ct:=Rt),把它的策略设为选项的策略( π = π ω π=π_ω π=πω),把它的终止函数设为折扣系数乘以选项的终止函数(γ(s)=γ·γ_ω(s))
。如此一来,真实的GVF将等同于选项模型的收益部分,tr,c(s)=r(8,u),
并且本书中介绍的各种学习方法都可以用来近似它。选项模型的状态转移部分会更复杂一些。我们需要对选项对应的每一个可能的终止状态分配一个GVF。除了在选项终止且终止于相应的状态时, 我们不希望这些GVF积累任何量。

这可以通过如下设定来实现:把预测转移到s’的GVF的累计量写为Ct=(1-(S)1s,=
。该GVF的策略和终止函数都和选项模型的收益部分一样设置。那么真实的GVF就等同于选项的状态转移模型的s` 部分:$$
,这样本书中介绍的方法也就可以用来学习它。尽管这其中的每一步看起来都很自然,但是把它们整合在一起(包括函数通近和其他关键部分)是很有挑战性的,而且超出了现有最先进的技术水平。

练习17.1 在本节中展示了折扣情况下的选项,但是在使用函数通近的时候,折扣对于控制问题是否合适是有争议的(参见10.4节)。那么层次化策略的自然的贝尔曼方程形式应该是什么样的呢?它应当与式(17.4)中的类似,但需要在平均收益设置(10.3节)下进行定义。类比于式(172)和式(17.3),在平均收益设置下,选项模型的两个部分分别是什么样子的呢?

17.3 观测量和状态

在本书中,我们都把学到的近似价值函数(还有第13章中的策略)写成关于状态的函数。这是本书的第工部分中介绍的方法的重大局限,在这些方法中,学习得到的价值函数用一张表格来表示,因此任意的价值函数都能被精确近似。这种情况等同于假设环境的状态完全可以被智能体感知。但是在很多情况下,传感器输入只会告诉你这个世界状态的部分信息。有些对象可能被其他的东西遮挡住了,或者在智能体的身后,亦或是在几里之外。在这些情况下,关于环境的很重要的一部分信息可能并不能直接观察到。而且,把学习到的价值函数实现为一个关于环境状态空间的表格,是一种过强的、不现实而且局限性很大的假设。

在本书第Ⅱ部分提出的参数化函数逼近框架则限制要少得多,甚至可以说它是没有局限性的(虽然这种说法是有争议的)。在第Ⅱ部分中,我们保留了学习到的价值函数(和策略)是关于环境的状态的函数这一假设,但是允许这些函数在参数化的框架下自由变化。
一个有些令人吃惊而且并不被广泛认可的观点是,函数逼近包含了“部分可观测性”的很多方面。例如,如果有一个不可观测的状态变量,那么我们通过选择参数化的方式使得近似价值函数与这个变量无关。这样做的效果就如同这个状态变量是不可观测的。正因为如此,在所有参数化的情况下获得的结果都可以被应用在部分可观测的情况下,而不需要做任何改变。从这个意义上说,参数化函数逼近的情况包含了部分可观测性的情况。

然而,如果不显式地、明确地为部分可观测性建模,仍然有很多问题无法被深入研究,尽管我们在这里不能给出一个完整的处理部分可观测性的方法,但是我们可以大致列出需要做出的一些改变,以下是具体的四个步骤:
1、我们需要改变问题:环境所提供的不是其状态的精确信息,而仅仅是观测量,一这是一个依赖于于状态的变量,就像机器人的传感器那样,提供关于状态的部分信息。与了简化问题,我们假设收益是一个关于状态的直接的、已知的函数(观测量可能是一个,收益可能是它的某一个分量)。那么环境交互将没有明确的状态或者收益,而仅仅出一个简单的动作A_t∈A和观测量O∈O的交互序列:5

在这里插入图片描述

永远这样持续下去(与式3.1对比)或者形成“幕”,每幕都以一个特殊的终止观测量来结束。

2、然后我们可以用观测量和动作的序列来恢复本书中提到的状态的概念。我们使用术语"历史"以及记号Ht表示一个轨迹从初始部分一直到当前的观测量:0。
在这里插入图片描述

历史代表了我们在不看数据流外部信息的情况下,对过去所能了解的最多信息(因为历史是整个过去的数据流)。当然历史会随着t增长,从而变大而且笨重,状态的想法就是历史的某种“紧凑”的总结,对于预测未来而言,它和真实的历史同等有用。我们看看这到底意味着什么:为了成为历史的总结,状态必须是一个历史的函数S=f(Ht),为了能够像历史一样对预测未来有用,它必须有我们所知道的马尔可夫性。更正式的说法是,这是函数f的性质。对于所有的观测量o∈O和动作a∈A,一个个函数f有马尔可夫性,当且仅当任意被预测到同一个状态(f(h)=f(h`))的两个历史h和h· 都对于它们的下一个观测量有相同的概率。

在这里插入图片描述

马尔可夫状态是预测下一个观测量(式17.6)的良好基础,但更重要的是,它是预测控制任何事情的良好基础。例如,令一个测试序列为任何特定的在未来可能发生的交替出现的“动作-观测量”序列。比如一个三步的测试序列可以记为:

在这里插入图片描述

给定历史h,这个测试序列的概率被定义为:

在这里插入图片描述
如果f是马尔可夫的,而且h和h`是在f下会被映射到相同的状态的两个不同的历史,那么对于任意长度的任意测试序列 τ τ τ,给定这两个历史时它们的概率一定是相同的:

在这里插入图片描述
换句话说,一个马尔可夫状态总结了对于预测测试序列的概率有用的所有历史信息。事实上,它总结了做任何预测所需要的全部信息,包括预测任意的GVF以及最优的行为(如果f是马尔可夫的,那么总会存在一个确定的函数π,使得选择A:÷π(f(Ht)是最优的)。

将强化学习的概念扩展到部分可观测的情况的第三步是需要考虑一些计算上的问题。
特别是,我们希望状态是历史的紧凑的总结。例如,对于一个马尔可夫的函数f,映射到自己的函数完全满足这个条件,然而并没有什么用,因为正如我们之前所提到的,对应的S1=H1会随着时间增长而变得笨重。但是更本质的原因是,这个历史再也不会在未来出现了。智能体永远不会两次进入同一个状态(在一个持续性的任务中),因此永远不会从表格型学习方法中获益。我们希望我们的状态是“紧凑”的,而且是马尔可夫的。在如何获得和更新状态的问题上,我们也有类似的需求。我们并不真的想要一个包括“所有历史”的函数f。相反地,出于计算上的考虑,我们偏向于通过相对简单的增量式递归计算获得与f一样的效果,这个计算过程使用下一个时刻的增量At 和 Ot+1 :
在这里插入图片描述

其中,初始状态S0是给定的。函数u又被称作状态更新函数。例如,如果f是映射到自身的函数(St=Ht),那么u仅仅是在St 的后面加上了一个At和Ot+1.给定f,构造个相应的u总是可行的,但是可能在计算上并不方便,而且正如上面映射到自身的函数的例子,它可能不能产生一个“紧凑”的状态。状态更新函数在任何智能体的架构中都是解决部分可观测性问题的核心部分。它必须在计算上是高效的,因为在看到状态之前,我们不能采取任何动作或者做任何预测。

一个通过状态更新函数获得马尔可夫状态的典型例子采用了流行的贝叶斯方法,被
称作“部分可观测MDP"( Partially Observable MDP, POMDP)。在这个方法中,假定
存在一个完备定义的隐变量Xt,它真实反应环境的变化并产生可见的环境观测量,但它们对于智能体而言从来都是不可观测的(不要将它与智能体用于预测和决策的状态S相混淆)。对于 POMDP而言,一种自然的马尔可夫状态S,就是给定历史时在隐变量上的一个概率分布,这个“概率分布”被称作置信状态( (belief state)。为了更具体一些,假设在通常情况下,存在有限个隐变量:
在这里插入图片描述

那么置信状态则是一个向量在这里插入图片描述
在这里插入图片描述
无论t如何增长,置信状态都保持相同的大小(相同数量的成员)。假设我们有足够多的关于环境内部如何工作的知识,它也可以由贝叶斯公式增量式地更新。特别地,置信状态更新函数的第i个成员是

在这里插入图片描述

【17】 强化学习 17章 前沿技术_第1张图片
其中,a∈Ao∈O,置信状态s∈Ra,其元素为s。这里有4个变量的p函数与MDP
中(渗见第3章)通常使用的并不一样,而是在 POMDP情况下的基于隐状态的推广形
式:r,o이x,a)=Pr{X1=,O2=0IX1-1=a,A4-1=}。这个方法在理论研究中非常流
行、并且有非常重要的应用,但是其假设和计算复杂性的可扩展性太差,我们不推荐在人工智能中使用该方法。

另ー个马尔可夫状态的例子是预测状态表示( Predictive State Representations,PSR).
PSR解决了 POMDP方法的弱点:在 POMDP中,智能体的状态S,的语义是以环境的隐状态X为基础的。由于隐状态无法被观测,其学习也就比较困难。在PSR和相关方法中,智能体状态的语义是以未来的观测量和动作的预测值为基础的,因而是可以观测到的。在PSR中,一个马尔可夫状态被定义为一个d维的概率向量,由d个“核心”测试序列的概率组成,测试序列则由前面介绍的式(17.7)所定义。这个向量之后由状态更新函数u更新,它是贝叶斯公式的一种扩展,但以可观测的数据为基础,这就让它的学习变得更容易了。这个方法已经在很多方面得到了扩展,包括终端测试、组合测试、强有力的“谱”方法,还有从TD方法中学到的闭环和时序摘要测试。最好的理论进展有些是针对被称为可观测的操作模型( Observable Operator Models,OOM)和序列系统(Thom,2017)的。

在我们简短的概要介绍中,处理强化学习中的部分可观测性的第四步是重新引入近似的念。正如我们在第二部分中所讨论的,想要达到人工智能必须得接受近似方法。不仅于价值函数是这样,对于状态也是这样。我们必须接受并且在“近似状态”的概念下开展我们的工作。近似状态将会在我们的算法中扮演和原来一样的角色,因此我们继续对智款用的状态使用记号S,尽管它可能不是马尔可夫的。

也许近似状态的最简单的例子就是最近的观测量S=O。当然这种方法不能够处理变量信息的情况。可能更好的表达方式是,对于某个k>1,使用最近的k个观测量和动作来表达状态:S:=On,A4-1O2-1…,Ar-k,这可以通过引入一个特殊的状态更新函数来实现:每次加人新数据并平移,同时把最旧的数据删除。k阶历史的方法仍然非常
简单,但是相比于直接使用单个观测量作为状态,它可以大大增加智能体的能力。

当马尔可夫性质(式17.6)只是被近似满足的时候会发生什么呢?不幸的是,当单步预测所定义的马尔可夫性变得哪怕有一点不准确的时候,长期预测的表现就可能会遭遇急剧的下滑。长期的测试序列、GVF,还有状态更新函数都有可能近似得很糟糕。短期和长期的近似目标就是不一样的。当前也没有这个方面的有效的理论保证。

然而,仍然有理由认为在本节中描述的通用思想可以用到近似的情况下。这个通用的思想就是:一个对于某些预测而言好的状态,对其他的情况也会是好的(特别是,对于一个马尔可夫状态,如果它足够做单步预测,则对其他的情况也是足够的)。如果我们退步,不考虑马尔可夫情况下的特定结果,则前面的通用思想与我们在17.1节中讨论的多头部学习和辅助任务是相似的。在17.1节,我们讨论了对于辅助任务来说好的表示为什么对于主任务来说往往也是好的。这些思想合在一起就揭示了一个可以同时对部分可观测性和表征进行学习的方法:采用多重预测并以此来指导状态特征的构建。这样一来,完美但并不可行的马尔可夫性带来的理论保证就被一个启发式原则所替代,这个原则就是:对某些预测有益的信息对于其他预测而言也会是好的。这种方法可以很好地与计算资源的规模相匹配。在大型机器上,人们可以尝试大量的不同的预测:可能会倾向于那些接近于最感兴趣的目标、最容易可靠地学习的预测。在这里很重要的一点是,不要手动选择预测目标,而智能体应该做到这一点。而这可能需要一个通用的表达“预测”的语言,使得智能体可以系统地试探一个广大的可行预测的空间,从中发现最有用的内容。

特别地, POMDP和PSR方法都可以应用于近似状态。状态的语义在形成状态更新
函数的时候非常有用,就像在这两种方法和k阶的方法中那样。但对保持状态内信息的
有用性而言,语义正确的需求并没有那么强烈。有些状态扩充的算法,例如回声状态网
络( Jaeger,2002),几乎保留了关于历史的任何信息,但是依然表现很好。这个领域依然
有很多的可能性,因此我们期待更多的工作和新的思想。针对近似状态,学习状态更新函数是强化学习中的表示学习问题的一个重要组成部分。

17.4 设计收益信号

强化学习相较于有监督学习的一个主要优势是,强化学习并不依赖于细节性的监督信息:生成一个收益信号并不依赖于“智能体的哪个动作才是正确的”这一先验知识细节。

但是强化学习的成功应用很大程度上依赖于我们的收益信号在多大程度上符合了设计者制定的目标,以及这些信号能够多好地衡量在达到目标过程中的进步。出于这些原因,设计收益信号是任何一个强化学习应用的重要部分。

设计收益信号指的是设计智能体所在的环境的一个部分,这部分负责在t时刻产生一
个标量收益R送回到智能体。在第14章末尾讨论术语的时候,我们提到,称B更像一个在动物大脑内部产生的信号,而不是在动物的外部环境中的一个对象或者事件。大脑中产生这些信号的部分已经进化了数百万年,因此非常适应我们的祖先在将他们的基因传递下去的时候所面临的各种挑战。我们因此不应该认为设计收益信号是一件容易的事情。

设计收益信号的一个挑战来自于,智能体需要学习,在行为上接近并在最终达到设计者所希望的目标。如果设计者的目标很容易辨别,那么这个任务可能很简单,例如寻找个良好定义的问题的解,或者在一个良好定义的游戏中取得高分。在这些例子中,我们通常可以通过“问题是否解决”和“游戏分数是否提高”来定义收益函数。但是在有些问题中,目标并不容易被翻译成收益函数,尤其是当这些问题需要智能体做非常有技巧性的动作来完成复杂任务或者一系列任务的时候就更是如此,例如家务机器人助理所需要解决的问题。更进一步,强化学习智能体可能会发现一些意想不到的方法使得环境可以给出收益信号,但其中有一些可能是我们并不想要的,甚至有时是很危险的方法。这对于任何像强化学习这样依赖于优化的算法而言,都是一个长期存在并且非常关键的挑战。我们将在17.6节,也就是本书的最后一节中详细讨论这个问题。

即使有一个简单且易于辨识的目标,收益稀的问题仍然时常出现。足够紧地提供非零收益让智能体实现一次目标,本身就已经是一个今人畏惧的挑战,更不要说让它高效地从各种各样的初始状态下进行学习了。那些可以明确地触发收益的“状态动作”二元组可能很少,而且相互之间隔得很远:且代表着向目标前进的收益也可能并不常见,因为朝
向目标的进步总是很难甚至是无法衡量的。智能体可能会长期没有目的地漫游( Minsky
1961所称的“高原问题”)。

在实践中,设计收益信号通常会归到一个反复试验的搜索过程,直到找到一个可以产生合理结果的信号。如果智能体没有成功学习,学得太慢,或者学习到了错误的东西,那么这个应用的设计者会调整收益信号并且再试一次。为了做到这一点,设计者会对智能体的表现用某种评估标准来衡量,而他会把这种评估标准翻译成一个收益信号,使得智能体的目标和设计者自己的目标相匹配。如果学习的进程大慢了,那么设计者可能会尝试设计个非稀硫的信号,其可以在智能体与环境交互的过程中更有效地指导学习。解决稀硫收益问题的一个非常诱人的手段是,以设计者认为达到最终目标所经历的重要的几个阶段作为子目标,对这些子目标提供收益函数。但是,当使用这些有明确目的性的补充收益来扩充原来的收益函数时,也可能会使智能体的行为与我们的预期大相径庭智能体可能最终根本不会达到总的目标。一个更好的提供这样的指导的方法是,把收益函数放在一边而对价值函数的逼近过程进行扩充,给它扩充一个描述最终目标的初始猜测,或描述部分目标的初始猜测。例如,假设我们想把:S→R作为真实的最优价值函数
U。的一个初始猜测,并且我们使用关于特征x:S→Rd的线性函数逼近,那么我们可以
把初始的价值函数逼近形式定义为:

在这里插入图片描述
然后按照惯例更新权重w,如果初始的权重向量是0,那么初始的价值函数则是t,
但是渐近解的质量会像往常一样由特征向量决定。可以针对任意的非线性函数通近器和任
意形式的u来做这种初始化,尽管这并不保证能加速学习。

一个处理稀疏收益问题的非常有效的方式是塑造技术,它由心理学家B.F. Skinne
提出,并在本书的14.3节中有所介绍。这种技术的有效性依赖于一个事实:稀疏收益问题并不只是收益信号本身的问题,它们也是智能体策略的问题,有些策略会阻碍智能体频繁达到可以产生收益的状态。塑造技术会在学习过程中不断改变收益信号:给定智能体的初始行为,从一个不那么稀疏的收益信号开始,渐渐地把它调整到适合最初感兴趣的问题的收益信号。智能体面临一系列难度逐渐増加的强化学习问题,其中在每个阶段学习到的东西,可以让下一个更难的问题变得相对简单一些。这是因为智能体通过学习简单问题得到了先验知识,这些知识使得它能够更加频繁地获得复杂问题下的收益;而如果不学习先验知识就直接优化复杂问题的收益,则收益会非常稀疏。“塑造”是训练动物过程中的个基础技术,它在计算强化学习中非常有效。

如果我们对于收益信号如何设计一筹莫展,但是有另外一个智能体,它可能是一个人类,已经是该领域的专家,并且它的行为可以被我们观察到,那么我们可以如何利用这点呢?在这种情况下,我们可以使用被称为“模仿学习”“从示范中学习”和“学徒学习”的算法。这里的思想是从专家智能体中获得收益,同时保留进一步提升的可能性。从专家的行为中学习可以通过直接的有监督学习,或者通过被称作“逆强化学习”的技术抽取收
益函数,然后使用强化学习算法从这个收益函数学出一个策略。Ng和Rusl(200研
究了逆强化学习的任务,他们尝试仅仅从专家的行为中恢复出专家的收益信号。但这种做法无法找到精确解,因为一个策略可能对很多个不同的收益信号而言都是最优的(例如,任何对所有状态和动作给予相同收益的信号)。但是,我们仍然可能找到合理的候选收益信号。只不过这个过程需要很强的假设,包括对环境动态特性的先验知识,以及与收益信号成线性关系的特征向量。同时,这个方法也要求对问题做多次完全求解(例如通过动态
规划)。虽然有这些困难,但是 Abbeel 7和Ng(2004)称逆强化学习有时会比有监督学习更
有效
另一个找到好的收益信号的方法,是将试错搜索过程自动化以找到好的信号。从应用角度来说,收益信号是学习算法的一个参数。正如我们可以对算法的其他参数所做的那样,我们可以自定义可行的搜索空间,然后用优化算法自动优化这些收益信号。优化算法是这样评估每一个候选收益信号的:以该收益信号运行强化学习算法若干步,然后用一个包含设计者真实目标的“高级”目标函数来计算评分,不需要考虑该智能体的局限。甚至
可以通过在线梯度上升来提升收益信号,其中梯度来自于高级的目标函数(Sorg、 Lewis和 Singh,2010)。把这个算法与真实世界相联系的话,优化高级目标函数可以类比为进
化,其中高级优化函数代表动物的进化适应程度,这通过能活到繁殖年龄的后代数量来衡量。

这种具有上下两层优化算法(一层类似于进化,另一层是智能体个体的强化学习)
的计算实验已经证实,直觉本身并不总足以用来设计一个好的收益信号( Singh、 Lewis和 Barto,200)。利用高级目标函数所衡量的强化学习智能体的性能表现,可能会对智能
体收益信号的某些细节方面特别敏感,这些敏感性来源于智能体本身的局限以及它在其活动和学习的环境。这些实验也表明一个智能体的目标不应该总是与智能体设计者的目标一致。

最初这件事情显得很反直觉,但是对于一个智能体而言,它不可能不管收益信号是么就达到设计者的目标。智能体需要在很多限制下学习,例如有限的计算能耗、有限的环境信息或者有限的学习时间。当有这样那样的限制的时候,学习去达成一个与设计者目标
不同的目标,而不是直接去追求设计者的目标(Sorg、 Singh和Lewi,2010:Sorg,201)
这可能有时会更加接近于设计者的初衷。在自然界中很容易找到这样的例子,因为我们不能直接接触到大多数食物的营养值,我们的收益信号的设计者一一进化一一给予我们
一个收益信号让我们去找某些特定味道。尽管这当然并不绝对可靠(事实上,在某些与祖先环境不同的环境中可能是有害的),但这个信号补偿了我们之前许多的限制:有限的感官功能,有限的学习时间,以及在寻找健康饮食的过程中进行个体尝试实验所冒的风险。类似地,因为动物并不能实际观察到它的进化适应性,所以进化适应性的目标函数本身并不能作为收益信号。相反,进化过程所提供的一系列收益信号都是可以观测的,并且是对进化适应性敏感的。

最我们要记住,强化学习智能体并不一定是一个完整的有机物或者机器人。它可能是一个更大的行为系统的一部分。这意味着收益信号可能被更大的行动智能体内部的事情所影响,例如动机、记忆、想法甚至幻觉。收益信号可能也依赖于学习过程本身的一些性质,比如衡量学习中进步了多少。让收益信号对这样的内部信息敏感,可以使智能体作为“认知架构”的一部分,学习如何控制认知架构,同时也可以获取一些特定的知识和技能。这些技能很难只依赖于外部的收益信号学习到。这种可能性导致了“内在激励的强化学习”这个思想,稍后我们会简要地讨论这个问题。

5 遗留问题

在本书中,我们介绍了通向人工智能的强化学习方法的基础知识。粗略地说,这个方
法依赖于模型无关和模型相关的方法的结合(如第8章中的Dyma框架所示),并利用第Ⅱ
部分中介绍的函数通近技术。其中的关注焦点是“在线”和“增量式”的算法(我们甚至认为这些方法比基于模型的方法更为基本),以及如何在离轨策略训练的情形中使用这些算法。后者的完整应用只在这最后一章中有所阐述。也就是说,我们之前一直将离轨策略学习视为解决试探和开发之间矛盾的一种吸引人的方式,但是只有在这一章中,我们才真正完整地讨论了依赖于离轨策略学习的应用,包括学习GVF的同时也学习多个不同的辅助任务,还有通过时序摘要的选项模型来对世界进行层次化的学习。正如我们不断在本书中指出的,并且本章中所讨论的未来潜在研究方向也表明,目前仍有很多工作有待完成。但是,假设我们认可本书中全部的内容以及本章到现在为止所概括的全部方向,那么还剩下的是什么呢?当然我们不能确切地知道什么是需要的,但是我们可以做一些猜测。在这
・节中我们强调6个更长远的问题,有待未来的研究去解决。

第一个问题是,我们仍然需要更强大的参数化函数逼近方法,它应当可以在完全增量式和在线式的设置下很好地工作。基于深度学习和人工神经网络的方法是这个方向上的重要一步,但是它们仍然只是在极大的数据集上批量训练才能得到很好的效果,要么是大量离线地自我对局博弈,要么是通过多个智能体在同一个任务上交错地采集经验来学习。这些以及其他的一些设置都是为了解决当下的深度学习方法的局限,即深度学习方法在增量式、在线式学习的设定下会陷人挣扎,而增量式和在线式学习又恰恰是本书中强调的最自然的强化学习方法的特质。这个问题又被称作“灾难性的干找”,或者“相关的数据”。每当学习到一些新的东西时,它都倾向于忘记之前学的东西,而不是将新知识作为补充,这会导致之前学习到的那些优点都丢失。例如“回放缓存”之类的技术经常被用于储存和重新导出旧的数据,使得之前学到的优点不至于永久丢失。我们必须诚实地说,目前的深度学习方法并不完全适合在线学习。我们找不到这种限制无法解决的理由,但是迄今为止,在保持深度学习优势的同时解决这个问题的算法仍然还没有被设计出来。大部分当下的深度学习研究的导向是在这个限制下工作而不是去掉这个限制。

第二点(也许是紧密相连的),我们仍然需要一些方法来学习特征表示,使得后续的学习能够很好地推广。这个题是一个更广义的问题(被称为“表征学习”“构造型归纳”和“元学习”)的例子。我们如何使用经验去学习归纳各种偏差,使得未来的学习能够得到更好的推广也因此学得更快,而不只是学习一个想要的函数。这是一个很老的问题,可以道潮到20世纪50年代和60年代的人工智能和模式识别的起源。这样的年代可能会止人感到犹豫,也许这个问题没有好的解决方案。但是同样也有可能是我们尚未到达找出解决方案并展示它的有效性的阶段。如今的机器学习是在一个远大于过去的规模上进行的。一个好的表征学习方法可能带来的收益越来越清晰。我们注意到,在一个新的机器学
习年会一一国际表征学习会议( International Conference on Learning Representations
ICLR)上,自2013年起每年都有人採讨这个问题。但在强化学习的语境下探索表征学习则不是那么常见。强化学习给这个旧间题带来了许多新的可能性,例如17.1节中提到的轴助任务。在强化学习中,表征学习的问题与173节中讨论的学习状态更新函数的问题是一致的。

第三点,我们仍然需要使用可扩展的方法在学习到的环境模型中进行规划。规划方
法已经被证明在某些应用上极为有效,如 Alphago Zero和计算机国际象棋等,这些问题
中的环境模型可以从游戏的规则或者人类设计者的知识中完整地得到。但是在完全基于模型的强化学习任务中,需要从数据中学习环境模型,然后再用于规划,可很少有成功的例
子。第8章中介绍的Dyna系统是一个例子,但是正如我们当时所讨论并且也在大部分
随后的工作中被人提及的,它使用了一个不带函数通近的表格型模型,这在很大程度上限了它的应用范国。只有少部分的研究探讨了线性模型的使用、更少的研究同时了在172节中讨论的基于选项的时序摘要方法。

为了使规划方法可以在学习得到的环境模型上有效地使用,我们还需要做很多工作。例如,模型的学习过程应该是选择式的,因为模型的范国会严重影响规划的效率。如果一个模型注重于最重要的选项的关键结果,则规划可能是快速和高效的;但是如果一个模型包含了不太可能被选到的选项的非主要后果的详细信息,则规划可能几乎没有什么用。环境模型应该以优化规划过程为目标,谨值而明智地构建其状态和动态特性。应该持续地监测模型的各个方面,以了解它们对规划效率贡献或者减损的程度。本领域尚未解决这个复杂的问题或者设计出考虑其影响的模型学习算法。

第四个在未来的研究中需要重点解决的问题,是自动化智能体的任务选择过程,智能体在这些任务上工作并且使用这些任务提升自己的竞争力。在机器学习中,人类设计者为智能体设计学习的目标是一件很常见的事情。因为这些任务是提前已知而且固定的,因此它们可以被内嵌在学习算法的代码中。然而如果我们看得更远一些,则我们可能希望智能体对于将来想掌握什么技能做出自己的选择。这可能是某个特定的已知的大任务中的一个子任务,或者它们可能意图创造一些积木式的模块,允许智能体在一些尚未见过但是将来可能面临的问题上更加高效地学习。

这些任务可能像17.1节中讨论的辅助任务或者GVF,或者是用17.2节中讨论的基于选项的方法解决的任务。例如在构建一个GVF的过程中,累积量、策略、终止函数分别应该是什么样子的?当前的最优方法是手动选择它们,但是如果我们可以把这些任务选择变得自动化,那么它可能会更强大并且推广性也更强,尤其是当任务选择来自于智能体已经构建的一些“积木”的时候就更是如此,这些“积木”可能是之前在表征学习或者在子问题的经验学习中产生的结果。如果GVF的设计是自动化的,那么设计的选择本身将会被显式地表达出来:它们将会在计算机中以一种可以设置、改变、操控、筛选和搜索的方式自动组织起来,而不是在设计者的大脑中,随后写进代码里。之后任务可以一个接着
一个地被层次化组织起来,就像人工神经网络中的特征一样。任务就是一个一个的问题,而人工神经网络的内容就是这些问题的答案。我们期望将来有一个完整的层次化的问题与现代深度学习方法提供的层次化的答案相匹配。

第五个我们认为对未来研究至关重要的问题是,通过实现某种可计算的好奇心来推动行为和学习之间的相互作用。在本章中我们想象过一个场景:从一个经验流中,通过离轨策略的方法,同时学习多个任务。采取的动作当然会影响经验流,而经验流反过来也会决定学习会出现多少次,什么任务将会被学习。当收益信号不可用,或者不被智能体行为强烈影响的时候,智能体可以自由选择动作,在某种意义上最优化这些任务上的学习,也就是说使用某些衡量学习进度的指标作为内在的收益,来实现一种“好奇心”的计算形式。除了衡量学习进度之外,内在的收益函数可以以其他的可能性,找到最出人意料、新奇或者有趣的输人,或者评价智能体对环境造成影响的能力。用这些方式产生的内在收益信号,可以被智能体用来给自己提出任务,任务的提出可以通过定义辅助任务、GVF或者选项等方式实现,以使得学到的技能可以提升智能体掌握未来任务的能力。从结果上看,这很像计算意义上的玩要。现在已经有了很多关于使用内在收益信号的研究,在这个大的方向上还有很多激动人心的话题,等待未来的研究去揭示。

最后一个在将来的研究中需要注意的问题是开发足够安全(达到可以接受的程度)的方法将强化学习智能体嵌入真实物理环境中,从而保证强化学习带来的好处超过其带来的危害。这是未来研究最重要的一个方向之一,我们将在下一节中讨论它。

6、

我们在20世纪90年代中期撰写本书第1版的时候,人工智能取得了显著的进展,而且产生了一定的社会效应,尽管这个时期大多数激动人心的进展只是品示出人工智能可能的前景而已。机器学习就是这个前景中的一部分,但是对于人工智能而言还不能算是不可或缺的。如今人工智能的前景已经落地为应用,而且正在改变百万人的生活。机器学习本身也成为了一项关键技术。在我们写本书第2版的时候,一些人工智能方面最卓越的成就已经包括了强化学习技术,比如著名的“深度强化学习”一一强化学习与深度人工神经网络结合。我们正处在一波人工智能真实场景应用的浪潮之中,它们中将会有很多都使用深度或者非深度的强化学习,我们很难预料它们将以什么样的方式影响我们的生活。

但是大量真实世界中的成功案例并不代表真正的人工智能已经实现了。尽管人工智在很多领域都取得了很大的进展,但是人工智能与人类智能,甚至与动物智能之间的鸿海都是很大的。人工智能在某些领域能有超过人类的表现,甚至是围棋这种非常难的游戏然而开发像人类这样完整地拥有通用适应性和解决问题的能力、复杂的情感系统和创造力,以及从经验中快速学习的能力的可交互式的智能体仍然任重道远。强化学习作为一关注于动态环境交互式学习的技术,在将来会发展为这种智能体的不可或缺的部分。强化学习与心理学及神经科学的联系(第14和15章)弱化了其与人工智能其他的出期目标之间的关联,即掲示关于心智的一些关键问题,以及心智如何从大脑中产生。强化学习已经帮助我们理解了大脑的收益机制、动机和做决策的过程。因此有理由相信,在计算精神疾病学相结合之后,强化学习将会帮助我们研发治疗精神亲乱,包括药物濫用和药物成的方法。

强化学习在未来将会取得的另一个成就是辅助人类决策。在模拟仿真环境中进行强化学习,从中得到的决策函数可以指导人类做决策,比如教育、医疗、交通、能源、公共部门的资源调度。与其密切相关的一个强化学习的特征是,它总是考虑决策的长期效应。这在围棋和西洋双陆棋中是非常明显的,这些也正是强化学习给人留下最深刻印象的案例同时这也是收关我们人类和星球命运的诸多高风险决策的特征。在过去的很多领域中策分析人员已经使用了强化学习,并将其决策用于指导人类。使用高级的函数通近方法和大量的计算资源,强化学习方法已经展现出了一些潜力,期望攻克将传统决策辅助方法推广到更大规模、更复杂问题的难题。
人工智能的快速发展让我们开始担心它可能对社会甚至人类本身造成严重的威胁。著
名的科学家和人工智能先驱 Herbert Simon早在2000年( Simon,2000手CMIU举办的地球研讨会( Earthware Symposium)上的一个演讲中,就预言了这一点。他指出在任何
新形式的知识中,前景和危险都存在着永恒的冲突。他用古希腊神话中普罗米修斯和潘多拉之盒的例子打比方,现代科学的英雄普罗米修斯,为了人类的福社,从诸神那里盗取火
种;而开启潘多拉之盒,只是一个小小的无意之举,却给人类带来了灾难。 Simon认为我
们需要承认这样的冲突是不可避免的,同时应该把自己当作未来的设计者而不是观众,我们更倾向于做普罗米修斯那样的决策。这对于强化学习来说非常正确,如果不就地部署强化学习,它在给社会带来福利的同时,也有可能造成我们不希望看到的后果。因此,包括强化学习在内的人工智能应用,其安全性是一个需要重视的课题。

一个强化学习智能体可以通过与真实世界环境、模拟环境(模拟真实世界的一部分)或者这两者的结合环境进行交互而学习。模拟器提供安全的环境,以供智能体自由试探,而不需要考虑对自己/环境带来的危害。在大多数现有的应用中,决策是通过与模拟环境交互,而不是直接与真实世界交互学习到的。除了避免在真实世界中造成不希望看到的后果之外,在模拟环境中学习,可以得到模拟的无穷无尽的数据,这比在真实环境中得到这些数据要容易得多。而且由于在模拟环境下,因此交互的速度通常比在真实环境中快,般在模拟环境中的学习也要快于在真实世界环境中的学习。

一个强化学习智能体可以通过与真实世界环境、模拟环境(模拟真实世界的一部分)或者这两者的结合环境进行交互而学习。模拟器提供安全的环境,以供智能体自由试探,而不需要考虑对自己/环境带来的危害。在大多数现有的应用中,决策是通过与模拟环境交互,而不是直接与真实世界交互学习到的。除了避免在真实世界中造成不希望看到的后果之外,在模拟环境中学习,可以得到模拟的无穷无尽的数据,这比在真实环境中得到这些数据要容易得多。而且由于在模拟环境下,因此交互的速度通常比在真实环境中快,般在模拟环境中的学习也要快于在真实世界环境中的学习。

然而,展现强化学习的全部潜力需要将智能体置于真实世界的经验流中,在我们的真实世界中行动、试探、学习,而不是仅仅在它们的虚拟世界中。总而言之,强化学习算法(至少在本书中关注的那些)被设计成在线式的,并且它们在很多方面都在效仿动物如何在不稳定和有敌人的环境下存活。嵌入真实世界中的强化学习智能体可以在实现人工智能放大、扩充人类能力的过程中起到变革性的作用。

希望我们的强化学习智能体在真实环境中学习的一个主要原因是:以极高的保真度模拟真实世界的经验通常是很困难甚至是不可能的,因而很难保证在模拟世界学习到的策略,无论是通过强化学习还是其他别的方法学到的,其可以安全并良好地指导真实的动作。这对于某些依赖于人类行为的动态环境而言尤其明显,例如,教育、医疗、交通、公共政策,在这些环境中,提升决策力可以带来切实的收益。然而部署这些智能体到真实世界中,需要考虑人工智能可能造成的危险。
其中有些危险是与强化学习密切相关的。因为强化学习依赖于优化,因此它继承所有优化方法的优点和缺点。其中一个缺点是设计目标函数的问题,在强化学习中这被称作收益信号,它帮助智能体学到我们想要的行为,同时规避那些我们不想要的行为。我们在17.4节中提到,强化学习智能体可能会试探到意想不到的方式,通过这种方式使它们的环境传递收益,而有些方式并不是我们想要的,甚至是危险的。当我们只是非直接地制定我们想要系统学习的东西时,正如我们设计强化学习的收益信号那样,在学习结東之前,我们不会知道我们的智能体距离完成我们的期望有多近。这并不是强化学习所带来的新问题,在文学和工程实践中这个问题的提出已经很久了,例如在歌德的诗歌
“魔法师的学徒”( Goethe1878)中,学徒对扫帚施法,以帮助他取水,但结果却造成了出人意料的洪水,这是因为学徒对魔法的掌握不到家。在工程中, Norbert Wiener,控制论( cybernetics)的莫基人,早在半个世纪以前就指出了这个题。他把这个问题联系到了一个超自然的故事“猴子的爪子”( Wiener,19640):“它满足了你向他要的,但并不是你应该向他要的,或者不是你本来的意图。”这个问题也在现代的文献中有长篇讨论(Nd
Bostrom2014)。任何在强化学习方面有经验的人都可能发现他们的系统找到了一些出人
意料的方式来提高收益。有些时候意想不到的行为是很好的,它以一种全新的方式解决了问题。但是在其他情况下,智能体学习到的东西违背了系统设计者的初衷,因为设计者完全没有考虑到某些情况。仔细设计收益函数是非常重要的,它帮助智能体在真实世界中行动,且不会给人类以观察其行为和动机并轻易干扰它的行为的机会。

尽管优化可能带来非预期的负面效果,但数百年来,优化一直在被工程师、架构师还有潜在的可能造福人类的设计者们广泛使用。我们生活中很多好的方面都依赖于优化算法的应用。另一方面,也有很多方法被提出来解决优化潜在的风险,例如增加硬或软的约束,使用鲁棒和风险低的策略来限制优化,使用多目标函数优化等。这些方法中有些已经用到了强化学习中,而且更多这方面的研究还有待进行。如何把强化学习智能体的目标调整成我们人类的目标,仍然是个难题。

另一个强化学习在真实世界中行动和学习带来的挑战是,我们不仅仅关注智能体学习的最终效果,而且关注其在学习时的行为方式。如何保证智能体可以得到足够多的经验以学习一个高性能的决策,同时又能保证不损害环境、其他智能体或者它本身(更现实地说如何把伤害的可能性降得尽可能低)?这个问题并不新鲜,也不只在强化学习中存在。对于嵌入式强化学习,风险控制和减轻问题与控制工程师们在最初使用自动化控制时所面临的同题是一样的。那时控制器的行为并不可控,很多时候还可能有灾难性后果,例如对飞机和精密化学过程的控制。控制的应用依赖于精细的系统建模、模型验证和大量的测试。关于让事先完全不了解的动态系统保证收敛和适配控制器的稳定性,已经有大量的理论。理论的保证从来不是万能的,因为它们依赖于数学上的假设成立。但是如果没有这些理论与风险控制和减轻的实践相结合,自适应或者其他类型的自动控制就不会像今天我们看到的那样,可以有效地提升质量、效率和成本收益。未来强化学习研究最重要的方向之一是适应和改善现有方法,以控制嵌入式的智能体在可接受的程度上足够安全地在真实物理环境中工作。
在最后,我们回到 Simon的号召:我们要意识到我们是未来的设计者,而不仅仅是
观众。通过我们作为个体所做的决策,以及我们对于社会如何治理所施加的影响,我们可以共同努力以保证新科技带来的好处大于其带来的危害。在强化学习领域里有充足的机会来做这件事情,因为它既可以帮助提升这个星球上生命的质量,促进公平和可持续发展也有可能带来新的危机。现在已经存在的一个威胁就是人工智能应用造成了许多人的失业。当然我们也有充分的理由去相信,人工智能带来的好处将远大于其造成的危害。关于安全问题,强化学习带来的危害并没有和当下已经被广泛采用的相关领域的控制优化算法带来的危害有本质的区别。强化学习未来的应用涉足真实世界时,开发者们有义务遵循同类技术中成熟的实践经验,同时拓展它们,以保证普罗米修斯一直占据上风。

参考文献 历史评注

17.1广义的价值函数最早是 Sutton和他的同事( Sutton,195a; Sutton et al,201; Modayil、
White和Sutn,2013)提出的。Ring提出了(正在准备中)一种使用GVF(“预报”)的
延伸思想实验,已经有一定的影响力,不过尚未发表。
使用多个头部的强化学习是由 Jaderberg et al.(2017)首次展示的, Bellemare、 Dabney和 Munos(2017)等人证实了预测收益分布的更多信息可以显著提升学习速度来实现对其期望
的优化(这也是辅助任务的一个例子)。在这之后,很多研究者都开始在这个方向开展研究工作
就我们所知,经典条件反射作为学习预测的一般理论以及对预测的内在反射性反应并没有在
心理学的文献中得到过明确阐述。 Modayil和Sutn(2014)将其描述为一种控制机器人和其
他智能体的方法,称为“巴甫洛夫控制”,暗示其根源为条件反射。

172将动作的时序摘要过程形式化为“选项”的过程是 Sutton、 Precup和 Singh(199等人提出
的,这也基于前人的工作,包括Par(199和Sutt(1995a)以及半MIDP的经典工作(例如,见 Puterman,1994). Precup(200的博士论文完整地提出了选项的思想。这些早期工
作一个很大的局限是它们没有处理离轨策略情况下的函数逼近。选项内部的学习通常来说需要离轨策略方法,那时还不能通过函数通近来可靠地完成。尽管现在我们有了一系列使用函数通近的稳定离轨策略算法,但它们与选项的结合并没有在本书出版的时候被真正地发掘出
来。 Barto和 Mahadevan(200还有 Hengst(2012)回顾了形式化的选项,还有其他的时序
摘要算法。
使用GVF实现带选项的模型在前文中没有提到。我们的介绍中使用了 Modayil、 White和 Sutton(2014)等人提出的技巧,在策略结束的时候预测信号。
第17章前沿技术
使用函数通近来学习带选项的模型的部分工作由 Bacon、Harb和 Precup(2017)等人提出。
目前的文獻中还没有人提出把选项和带选项的模型拓展到平均收益的情形。
173 Monahan(1982)给出了一个关于 POMDP方法的很好的展示。PSR和测试序列的概念由 Littman、 Sutton和 Singh(2002)等人提出。OOM由 Jaeger(1997,1908,2000提出。统一PSR、OOM和很多其他工作的序列系统,由 Michael Thon(2017;Thon和3 Beger
2015)在博土论文中提出。
强化学习与非马尔可夫状态表示的理论由 Singh、 Jaakkola和 Jordan(194; Jaakkola, Singh和 Jordan,1995)明确提出,早期的处理部分可观测性的强化学习方法由 Chrisman(192)
Mccallum(1993, 1995). Parr i Russell(1995). Littman Cassandra M Kaelbling(1995)
还有 by Lin和 Mitchell(1992)提出
17.4早期关于强化学习的建议和教学参考包括Lin(1992), Maclin和 Shavlik(199), Clouse(1996),还有 Clouse和 Utgoff(192)
不应该将 Skinner的塑造技术与Ng、 Harada和Rusl(190提出的"基于的造”技术相混酒。 Wiewiora(2003)说明了该技术实际上与一个更简单的思想等价:给价值函数提供
初始近似,如式(17.11)所示。

17.5我们推荐由 Goodfellow、 Bengio和 Courville(20160)所著的讨论当下深度学习技术的书ANN中的灾难性干找问题由 Mccloskey和 Cohen(1989), Ratcliff(1990),还有 French(1999提出。回放缓存的技术由1in(1992)提出,其著名应用是Atan游戏系统(165节
Mnih et al.,2013,2015).
Minsky(1961)是第一个认识到表征学习问题的人。
为数不多的使用学习到的近似模型做规划的研究由 Kuvayev和 Sutton(1996), Sutton
Szepesvari、 Geramifard和 Bowling(2008), Nouri和 Littman(2009),还有 Hester和 Stone
(2012)等人做
在人工智能中,模型的设计需要仔细选择以避免过慢的规划,这是人们熟知的。一些经典的工
作包括 Minton(1990和 Tambe、 Newell,还有 Rosenbloom(199 Hauskrecht、 Meulear
Kaelbling、Dean和 Boutilier(1998)在带确定性的选项的MDP中展示了相应的效果
Schmidhuber(1991a,b)指出,如果收益信号是关于智能体的环境改普得有多快的一个函数那么像好奇心那样的事情会导致怎样的后果。由 Klyubin、 Polan和 Nehaniv(200提出的
授权函数是一个信息理论的度量,衡量智能体控制环境的能力,它也可以作为一种内在的收益
信号。 Baldassarre和 Mirolli(2013)的文章研究生物学和计算角度上的内在收益和动机,包括一种“内在激励的强化学习”的观点,使用了由 Singh、 Barto和 Chentenez(2004)提出的术语。同时可以参考 Oudeyer和 Kaplan(2007), Oudeyer、 Kaplan和 Hafner(200),还有 Barto(2013)的工作。

你可能感兴趣的:(强化学习)