zhaoyuyu_nudt

【17】强化学习 17章前沿技术

文章目录

名词

离轨策略
折扣过程
折扣系数
价值函数
广义策略迭代（4.6节）或者“行动器一评判器”算法

正文
17.1 广义价值函数和辅助任务

1、广义价值函数是什么？
2、辅助任务是什么？

定义：预测和控制不同种类的信号特征

作用

17.2、基于选项理论的时序摘要

人类可以无缝地在各个时间层次上切换，而没有一点转换的痕迹。那么MDP框架可不可以被拉伸，从而同步地覆盖所有这些时间层次呢？

17.3 观测量和状态
17.4 设计收益信号
5 遗留问题
6、
参考文献历史评注

名词

离轨策略

允许函数以任意的目标策略作为条件

折扣过程

12.8节中，折扣过程推广为一个终止函数，使得可以在每个时刻采用不同的折扣系数来作为回报。

折扣系数

价值函数

广义策略迭代（4.6节）或者“行动器一评判器”算法

正文

17.1 广义价值函数和辅助任务

1、广义价值函数是什么？

离轨策略允许函数以任意的目标策略作为条件，终止函数的引入，使得可以在每个时刻采用不同的折扣系数来作为回报。
允许我们在一个任意的、状态相关的视界，可以预测未来能得到多少收益。

下一步：将收益推广，允许对任意信号的预测。

比如，声音、颜色等信号未来的值之和进行预测，而不止对未来的收益值之和进行预测。

不管我没累加的是什么信号，我们都称其为预测的累积量：累计信号：

广义价值函数GVF:

像传统的价值函数（例如v或者q）一样，这是一个可以用参数化的形式逼近的理想函数，我们可以继续用v（s,w）来标记它，尽管对于每一种π、γ、Ct 的选择，在每次预测过程中都会有一个不同的参数w。因为一个GVF并不必然与收益有联系，因此将其称为值函数可能有些用词不当。我们可以简单地称之为“预测",或者用更独特的方式说：预报（由Ring提出，准备发表）。不管如何称呼它，它的形式都和价值函数一样，因此可以用本书中提出的学习近似价值函数的方法学出来。在学习预测值的同时，我们也可以采用广义策略迭代（4.6节）或者“行动器一评判器”算法，通过最大化预测值来学习策略。用这种方式，一个智能体可以学习如何预测和控制大量不同类型的信号，而不仅仅是长期收益。

为什么预测和控制长期收益之外的信号可能有用呢？这类信号控制任务是在最大化收益的主任务之外额外添加的辅助任务。一个答案是，预测和控制许多不同种类的信号可以构建一种强大的环境模型。正如我们在第8章所述，一个好的环境模型可以让智能体更高效地得到收益。清楚地回答这个问题需要一些其他的概念，我们将在下一节中介绍。首先我们考虑两个相对简单的方法，在这些方法中，多个不同种类的预测问题会对强化学习智能体的学习有所帮助。

2、辅助任务是什么？

辅助任务帮助主任务的一个简单情形是它们可能需要一些相同的表征。有些辅助任务可能更简单，延迟更小，动作和结果之间的关联关系更加明晰。如果在简单的辅助任务中，可以很早发现好的特征，那么这些特征可能会显著地加速主任务的学习。没有什么理由可以解释为什么这是对的，但是在很多情况下这看起来很有道理。例如，如果你学习在很短的时间内（例如几秒钟）预测和控制你的传感器，那么你可能会想出这个目标物体的部分特点，这将对预测和控制长期收益有很大的帮助。

如果在简单的辅助任务中，可以很早发现好的特征，那么这些特征可能会显著地加速主任务的学习。
如果你学习在很短的时间内（例如几秒钟）预测和控制你的传感器，那么你可能会想出这个目标物体的部分特点，这将对预测和控制长期收益有很大的帮助。

我们可能会想象一个人工神经网络（ANN),其中的最后一层被分为好几个部分，我们称它们为头部，每一个都在处理不同的任务。一个头部可能产生主任务的价值函数预测（将收益作为其累计量），而其他的头部可能产生很多辅助任务的解。所有的头部都可以通过随机梯度下降法反向传播误差到同一个“身体”里一即它们前面所共享的网络部分一从第二层到最后一层都在尝试构建表示以提供必要的信息给头部。研究人员们尝试了各种各样的辅助任务，例如预测像素的变化，预测下一时间点的收益，以及预测回报的概率分布。在很多种情况下这个方法都显示出了对主任务学习的加速效果（ Jaderbergetal.,2017)。类似地，作为一种有助于状态预测的方法，多预测的方法也被反复地提出过（见17.3节）。

另一个理解为何学习辅助任务可以提升表现的简单的方法是类比于经典条件反射这心理学现象（14.2节）。一种理解经典条件反射的方法是，进化使我们内置（非学习式的）了一个从特定信号的预测值到特定动作之间的反射关联。例如，人和许多其他动物看起来有一种内置的眨眼反射机制，当对于眼球将收到戳击的预测值超过某个阈值的时候，就会闭眼。这个预测是学出来的，但是预测和闭眼之间的关联是内置的，因此动物可以避免眼球受到突然的戳击。类似地，恐惧和心率加快或者愣住之间的关联、也可以是内置的，智能体的设计者们可以做一些类似的事情，例如，自动驾驶汽车可以学习“向前开车不会导致碰撞”，然后将其“停车/避开”的行为建立一个内置反射，当预测值超过一定阈值时触发。或者考虑一个真空清洁机器人，其可以学习预测是否会在返回充电装置前用尽电量，并且在该预测值变为非零时，条件反射一样地掉头移动到充电站。准确的预测取决于房间的大小、机器人所在的房间、电池的年龄，机器人的设计者很难了解所有这些细节，让设计者使用传感器的手段设计一个有效的算法来决定是否回头是很困难的，但是使学习到的预测则很容易做到这一点。我们预见到很多方法都会像这样将学习到的预测和内置控制行为的算法有效结合在一起。
最后，也许辅助任务最重要的作用，是改进了我们本书之前所做的假设：即状态的表不是固定的，而且智能体知道这些表示。为了解释这个重要作用，我们首先要回过头来了本书所做的假设的重要性以及去除它所带来的影响。这将在17.3中介绍。

定义：预测和控制不同种类的信号特征

作用

17.2、基于选项理论的时序摘要

马尔可夫决策过程形式上的一个吸引人的地方是，它可以有效地用在不同时间尺度的任务上。我们可以用它来形式化许多任务，例如决定收缩哪一块肌肉来抓取一个目标，乘坐哪一架航班方便地到达一个遥远的城市，选择哪一种工作来过上满意的生活。这些任务在时间尺度上差异很大，然而每一个都可以表达成马尔可夫决策过程（MDP),然后用本书中讲述的规划和学习过程完成。所有这些任务都涉及由与环境的相互作用、序贯决策以及一个随时间累积的收益构成的目标，因此它们都可以被形式化成马尔可夫决策过程。

尽管所有这些任务都可以被形式化为MDP，但是我们可能认为它们不能被形式化为单一的MDP，因为这些过程涉及的时间尺度都不同，例如选择的种类和动作都截然不同。例如，把预定跨洲的航班和肌肉收缩放在同一时间尺度上是不合适的。但是对于其他任务而言，例如抓取、掷标枪、击打棒球，用肌肉收缩的层次来刻画可能刚刚好。人类可以无缝地在各个时间层次上切换，而没有一点转换的痕迹。那么MDP框架可不可以被拉伸，从而同步地覆盖所有这些时间层次呢？

人类可以无缝地在各个时间层次上切换，而没有一点转换的痕迹。那么MDP框架可不可以被拉伸，从而同步地覆盖所有这些时间层次呢？

也许是可以的，一种流行的观点是：先形式化一个非常小的时间尺度上的MDP，从而许在更高的层次上使用扩展动作（毎个时刻对应于更低层次上的多个时刻）的规划。为了能到这一点，我们需要使用一个展开到多个时刻的“动作方针”的概念，井引人一个“终止”的概念。对这两个概念的通用的形式化方式是将它们用一个策略和一个状态相关的终止函数γ来表达，就像在GVF中定义的那样。我们将这样的一个“策略终止函数”二元组定义为一种广义的动作，称之为“选项"。在t时刻执行一个选项 $ω=<π_ω，γ_ω>$ 就表示从 $π_ω(·|S_t)$ 中获得一个动作 $A_t$ ，然后在t+1时刻以 $1-γ_ω(S_(t+1))$ 的概率终止。如果选项不在 $t + 1$ 时刻停止，那么 $A_(t+1)$ 从 $ π_ω(· |S_(t+1))$ 中选择，而且选项在t+2时刻以 $1-γ_ω(S_(t+2))$ 的概率终止。很容易就可以把低层次的动作看作选项的一种特例一每一个动作a都对应于一个选项（π_ω,γ_ω),这个选项的策略会选出一个动作（对于每个 $s∈S,π_ω(s)=a$ ),并且其终止函数是零（对于个 $s∈S+,γ_ω(s)=0$ )。选项有效地扩展了动作空间。智能体可以选择一个低层次的动作/选项，在单步之后终止，或者选一个扩展的选项，它可能在执行多步之后才终止。

"选项”的架构设计允许它与低级别的动作进行角色互换。例如，一个动作价值函数的记号 $q_π$ 可以被自然地推广为选项值函数，它以状态和选项作为输人，仍然返回期望回报，只是产生这个期望回报的过程包括了从输入状态开始，执行输人的选项直到它终止，并在之后继续遵循策略π的整个过程。我们也可以把策略的概念推广到层次化策略，它选择的是选项而不是动作，其中每个选项被选中之后，都会一直运行到终止。在这些思想下，本书中的许多算法都可以推广到学习近似的选项值函数和层次化的策略。在最简单的情况下，学到的策略从选项开始直接跳到选项结柬，更新只在选项结束的时候出现。更精细一些的做法是，更新可以在每一个时刻进行，使用一种“选项内部”的学习算法，这通常需要离轨策略算法。

选项的思想带来的最重要的推广也许是第3、4和8章中所提出的环境模型。关于“动作”的传统模型是状态转移概率和采取这个动作的即时收益的期望。那么传统的动作模型如何推广到选项模型呢？对于选项而言，合适的模型也应该包含有两部分：一个部分对应于执行选项后产生的状态转移结果；另一个对应于执行选项过程中的累积收益的期望。选项模型的收益部分，类比于“状态-动作”二元组的期望收益式（35),对于所有的
选项和所有的状态s∈S，定义为：

其中，τ是一个随机时刻，代表选项的终止时刻，它由参数 $γ_ω$ 决定。在这个等式中，需
要注意总体折扣系数 γ 所扮演的角色一一折扣是由γ决定的，但是选项的终止是由 $γ_ω$
决定的。一个选项模型的状态转移部分则更为精巧。这部分模型刻画了每一个可能的选项结果状态的概率（像在式3.4中一样），但是在这里，可能在多个时刻之后才能到达这个选项结果的状态，其中的每个状态都有不同程度的折扣。选项ω的这部分模型在如下公式中指定了ω的每个可能的起始状态s，以及ω的每个可能的终止状态 $s ‘$

注意，由于存在折扣系数项 $γ k$ ，这里的
不再是一个转移概率，并且不再对于有可能的 $s ‘$ 求和为1(无论如何，我们会继续在P中使用记号 $∣$ ）
上面关于选项模型的状态转移部分的定义使得我们可以为所有的选项定义形式化的贝尔曼方程和动态规划算法，其中也包括作为选项特例的低级别的动作。例如，对于层次化策略π来说，通用的贝尔曼方程是：

其中， $Ω_(s)$ 表示状态s中所有可行的选项的集合。如果 $Ω_(s)$ 仅仅包含低级别的动作，那这个方程退化为通常的贝尔曼方程（式3.14),唯一不同的是γ被包含在新定义的p中，即式17.3,因此在此处没有出现。类似地，相应的选项的规划算法中也没有γ。例如，作为式（4.10)的推广，带选项的价值送代算法是：

如果Ω(s）包含了每个状态s下所有可行的低级别动作，那么这个算法会收敛到通常意义上的 $v *$ ，从中我们可以计算出最优的策略。然而，如果我们能够在每一个状态下，只考虑所有可能选项Ω(s）的某个子集进行规划，则可能更有用。这样的话价值送代将会收敛到限制在给定的选项子集下的最优的层次化策略。尽管这个策略从全局看可能是次优的，但收敛可能会更快，因为我们只考虑较少的选项，而且每个选项都可以在时间上跳跃多步。

为了在有选项的情况下做规划，我们必须已知选项模型，或者学出选项模型。一个学出选项模型的自然方法是使用一系列的GVF（我们在上一节中定义过）来对它进行表示长后使用本书中提到的方法来学习GVF。对于选项模型的收益部分，不难看出如何做到这一点。我们仅仅需要把GVF的累计量选为收益（Ct：=Rt),把它的策略设为选项的策略（ $π=π_ω$ ），把它的终止函数设为折扣系数乘以选项的终止函数
。如此一来，真实的GVF将等同于选项模型的收益部分，
并且本书中介绍的各种学习方法都可以用来近似它。选项模型的状态转移部分会更复杂一些。我们需要对选项对应的每一个可能的终止状态分配一个GVF。除了在选项终止且终止于相应的状态时，我们不希望这些GVF积累任何量。

这可以通过如下设定来实现：把预测转移到s’的GVF的累计量写为
。该GVF的策略和终止函数都和选项模型的收益部分一样设置。那么真实的GVF就等同于选项的状态转移模型的s` 部分：
,这样本书中介绍的方法也就可以用来学习它。尽管这其中的每一步看起来都很自然，但是把它们整合在一起（包括函数通近和其他关键部分）是很有挑战性的，而且超出了现有最先进的技术水平。

练习17.1 在本节中展示了折扣情况下的选项，但是在使用函数通近的时候，折扣对于控制问题是否合适是有争议的（参见10.4节）。那么层次化策略的自然的贝尔曼方程形式应该是什么样的呢？它应当与式（17.4)中的类似，但需要在平均收益设置（10.3节）下进行定义。类比于式（172)和式（17.3),在平均收益设置下，选项模型的两个部分分别是什么样子的呢？

17.3 观测量和状态

在本书中，我们都把学到的近似价值函数（还有第13章中的策略）写成关于状态的函数。这是本书的第工部分中介绍的方法的重大局限，在这些方法中，学习得到的价值函数用一张表格来表示，因此任意的价值函数都能被精确近似。这种情况等同于假设环境的状态完全可以被智能体感知。但是在很多情况下，传感器输入只会告诉你这个世界状态的部分信息。有些对象可能被其他的东西遮挡住了，或者在智能体的身后，亦或是在几里之外。在这些情况下，关于环境的很重要的一部分信息可能并不能直接观察到。而且，把学习到的价值函数实现为一个关于环境状态空间的表格，是一种过强的、不现实而且局限性很大的假设。

在本书第Ⅱ部分提出的参数化函数逼近框架则限制要少得多，甚至可以说它是没有局限性的（虽然这种说法是有争议的）。在第Ⅱ部分中，我们保留了学习到的价值函数（和策略）是关于环境的状态的函数这一假设，但是允许这些函数在参数化的框架下自由变化。
一个有些令人吃惊而且并不被广泛认可的观点是，函数逼近包含了“部分可观测性”的很多方面。例如，如果有一个不可观测的状态变量，那么我们通过选择参数化的方式使得近似价值函数与这个变量无关。这样做的效果就如同这个状态变量是不可观测的。正因为如此，在所有参数化的情况下获得的结果都可以被应用在部分可观测的情况下，而不需要做任何改变。从这个意义上说，参数化函数逼近的情况包含了部分可观测性的情况。

然而，如果不显式地、明确地为部分可观测性建模，仍然有很多问题无法被深入研究，尽管我们在这里不能给出一个完整的处理部分可观测性的方法，但是我们可以大致列出需要做出的一些改变，以下是具体的四个步骤：
1、我们需要改变问题：环境所提供的不是其状态的精确信息，而仅仅是观测量，一这是一个依赖于于状态的变量，就像机器人的传感器那样，提供关于状态的部分信息。与了简化问题，我们假设收益是一个关于状态的直接的、已知的函数（观测量可能是一个，收益可能是它的某一个分量）。那么环境交互将没有明确的状态或者收益，而仅仅出一个简单的动作A_t∈A和观测量O∈O的交互序列：5

永远这样持续下去（与式3.1对比）或者形成“幕”，每幕都以一个特殊的终止观测量来结束。

2、然后我们可以用观测量和动作的序列来恢复本书中提到的状态的概念。我们使用术语"历史"以及记号Ht表示一个轨迹从初始部分一直到当前的观测量：0。

历史代表了我们在不看数据流外部信息的情况下，对过去所能了解的最多信息（因为历史是整个过去的数据流）。当然历史会随着t增长，从而变大而且笨重，状态的想法就是历史的某种“紧凑”的总结，对于预测未来而言，它和真实的历史同等有用。我们看看这到底意味着什么：为了成为历史的总结，状态必须是一个历史的函数S=f(Ht),为了能够像历史一样对预测未来有用，它必须有我们所知道的马尔可夫性。更正式的说法是，这是函数f的性质。对于所有的观测量o∈O和动作a∈A，一个个函数f有马尔可夫性，当且仅当任意被预测到同一个状态（f(h)=f(h`))的两个历史h和h· 都对于它们的下一个观测量有相同的概率。

马尔可夫状态是预测下一个观测量（式17.6)的良好基础，但更重要的是，它是预测控制任何事情的良好基础。例如，令一个测试序列为任何特定的在未来可能发生的交替出现的“动作-观测量”序列。比如一个三步的测试序列可以记为：

给定历史h，这个测试序列的概率被定义为：

如果f是马尔可夫的，而且h和h`是在f下会被映射到相同的状态的两个不同的历史，那么对于任意长度的任意测试序列 $τ$ ，给定这两个历史时它们的概率一定是相同的：

换句话说，一个马尔可夫状态总结了对于预测测试序列的概率有用的所有历史信息。事实上，它总结了做任何预测所需要的全部信息，包括预测任意的GVF以及最优的行为（如果f是马尔可夫的，那么总会存在一个确定的函数π,使得选择A：÷π(f(Ht)是最优的）。

将强化学习的概念扩展到部分可观测的情况的第三步是需要考虑一些计算上的问题。
特别是，我们希望状态是历史的紧凑的总结。例如，对于一个马尔可夫的函数f，映射到自己的函数完全满足这个条件，然而并没有什么用，因为正如我们之前所提到的，对应的S1=H1会随着时间增长而变得笨重。但是更本质的原因是，这个历史再也不会在未来出现了。智能体永远不会两次进入同一个状态（在一个持续性的任务中），因此永远不会从表格型学习方法中获益。我们希望我们的状态是“紧凑”的，而且是马尔可夫的。在如何获得和更新状态的问题上，我们也有类似的需求。我们并不真的想要一个包括“所有历史”的函数f。相反地，出于计算上的考虑，我们偏向于通过相对简单的增量式递归计算获得与f一样的效果，这个计算过程使用下一个时刻的增量At 和 Ot+1 ：

其中，初始状态S0是给定的。函数u又被称作状态更新函数。例如，如果f是映射到自身的函数（St=Ht),那么u仅仅是在St 的后面加上了一个At和Ot+1.给定f，构造个相应的u总是可行的，但是可能在计算上并不方便，而且正如上面映射到自身的函数的例子，它可能不能产生一个“紧凑”的状态。状态更新函数在任何智能体的架构中都是解决部分可观测性问题的核心部分。它必须在计算上是高效的，因为在看到状态之前，我们不能采取任何动作或者做任何预测。

一个通过状态更新函数获得马尔可夫状态的典型例子采用了流行的贝叶斯方法，被
称作“部分可观测MDP"( Partially Observable MDP, POMDP)。在这个方法中，假定
存在一个完备定义的隐变量Xt,它真实反应环境的变化并产生可见的环境观测量，但它们对于智能体而言从来都是不可观测的（不要将它与智能体用于预测和决策的状态S相混淆）。对于 POMDP而言，一种自然的马尔可夫状态S，就是给定历史时在隐变量上的一个概率分布，这个“概率分布”被称作置信状态（（belief state）。为了更具体一些，假设在通常情况下，存在有限个隐变量:

那么置信状态则是一个向量

无论t如何增长，置信状态都保持相同的大小（相同数量的成员）。假设我们有足够多的关于环境内部如何工作的知识，它也可以由贝叶斯公式增量式地更新。特别地，置信状态更新函数的第i个成员是

其中，a∈Ao∈O，置信状态s∈Ra，其元素为s。这里有4个变量的p函数与MDP
中（渗见第3章）通常使用的并不一样，而是在 POMDP情况下的基于隐状态的推广形
式：r,o이x,a)=Pr{X1=,O2=0IX1-1=a,A4-1=}。这个方法在理论研究中非常流
行、并且有非常重要的应用，但是其假设和计算复杂性的可扩展性太差，我们不推荐在人工智能中使用该方法。

另ー个马尔可夫状态的例子是预测状态表示（ Predictive State Representations,PSR).
PSR解决了 POMDP方法的弱点：在 POMDP中，智能体的状态S，的语义是以环境的隐状态X为基础的。由于隐状态无法被观测，其学习也就比较困难。在PSR和相关方法中，智能体状态的语义是以未来的观测量和动作的预测值为基础的，因而是可以观测到的。在PSR中，一个马尔可夫状态被定义为一个d维的概率向量，由d个“核心”测试序列的概率组成，测试序列则由前面介绍的式（17.7)所定义。这个向量之后由状态更新函数u更新，它是贝叶斯公式的一种扩展，但以可观测的数据为基础，这就让它的学习变得更容易了。这个方法已经在很多方面得到了扩展，包括终端测试、组合测试、强有力的“谱”方法，还有从TD方法中学到的闭环和时序摘要测试。最好的理论进展有些是针对被称为可观测的操作模型（ Observable Operator Models,OOM）和序列系统（Thom,2017）的。

在我们简短的概要介绍中，处理强化学习中的部分可观测性的第四步是重新引入近似的念。正如我们在第二部分中所讨论的，想要达到人工智能必须得接受近似方法。不仅于价值函数是这样，对于状态也是这样。我们必须接受并且在“近似状态”的概念下开展我们的工作。近似状态将会在我们的算法中扮演和原来一样的角色，因此我们继续对智款用的状态使用记号S，尽管它可能不是马尔可夫的。

也许近似状态的最简单的例子就是最近的观测量S=O。当然这种方法不能够处理变量信息的情况。可能更好的表达方式是，对于某个k>1,使用最近的k个观测量和动作来表达状态：S：=On,A4-1O2-1…,Ar-k，这可以通过引入一个特殊的状态更新函数来实现：每次加人新数据并平移，同时把最旧的数据删除。k阶历史的方法仍然非常
简单，但是相比于直接使用单个观测量作为状态，它可以大大增加智能体的能力。

当马尔可夫性质（式17.6)只是被近似满足的时候会发生什么呢？不幸的是，当单步预测所定义的马尔可夫性变得哪怕有一点不准确的时候，长期预测的表现就可能会遭遇急剧的下滑。长期的测试序列、GVF，还有状态更新函数都有可能近似得很糟糕。短期和长期的近似目标就是不一样的。当前也没有这个方面的有效的理论保证。

然而，仍然有理由认为在本节中描述的通用思想可以用到近似的情况下。这个通用的思想就是：一个对于某些预测而言好的状态，对其他的情况也会是好的（特别是，对于一个马尔可夫状态，如果它足够做单步预测，则对其他的情况也是足够的）。如果我们退步，不考虑马尔可夫情况下的特定结果，则前面的通用思想与我们在17.1节中讨论的多头部学习和辅助任务是相似的。在17.1节，我们讨论了对于辅助任务来说好的表示为什么对于主任务来说往往也是好的。这些思想合在一起就揭示了一个可以同时对部分可观测性和表征进行学习的方法：采用多重预测并以此来指导状态特征的构建。这样一来，完美但并不可行的马尔可夫性带来的理论保证就被一个启发式原则所替代，这个原则就是：对某些预测有益的信息对于其他预测而言也会是好的。这种方法可以很好地与计算资源的规模相匹配。在大型机器上，人们可以尝试大量的不同的预测：可能会倾向于那些接近于最感兴趣的目标、最容易可靠地学习的预测。在这里很重要的一点是，不要手动选择预测目标，而智能体应该做到这一点。而这可能需要一个通用的表达“预测”的语言，使得智能体可以系统地试探一个广大的可行预测的空间，从中发现最有用的内容。

特别地， POMDP和PSR方法都可以应用于近似状态。状态的语义在形成状态更新
函数的时候非常有用，就像在这两种方法和k阶的方法中那样。但对保持状态内信息的
有用性而言，语义正确的需求并没有那么强烈。有些状态扩充的算法，例如回声状态网
络（ Jaeger,2002),几乎保留了关于历史的任何信息，但是依然表现很好。这个领域依然
有很多的可能性，因此我们期待更多的工作和新的思想。针对近似状态，学习状态更新函数是强化学习中的表示学习问题的一个重要组成部分。

17.4 设计收益信号

强化学习相较于有监督学习的一个主要优势是，强化学习并不依赖于细节性的监督信息：生成一个收益信号并不依赖于“智能体的哪个动作才是正确的”这一先验知识细节。

但是强化学习的成功应用很大程度上依赖于我们的收益信号在多大程度上符合了设计者制定的目标，以及这些信号能够多好地衡量在达到目标过程中的进步。出于这些原因，设计收益信号是任何一个强化学习应用的重要部分。

设计收益信号指的是设计智能体所在的环境的一个部分，这部分负责在t时刻产生一
个标量收益R送回到智能体。在第14章末尾讨论术语的时候，我们提到，称B更像一个在动物大脑内部产生的信号，而不是在动物的外部环境中的一个对象或者事件。大脑中产生这些信号的部分已经进化了数百万年，因此非常适应我们的祖先在将他们的基因传递下去的时候所面临的各种挑战。我们因此不应该认为设计收益信号是一件容易的事情。

设计收益信号的一个挑战来自于，智能体需要学习，在行为上接近并在最终达到设计者所希望的目标。如果设计者的目标很容易辨别，那么这个任务可能很简单，例如寻找个良好定义的问题的解，或者在一个良好定义的游戏中取得高分。在这些例子中，我们通常可以通过“问题是否解决”和“游戏分数是否提高”来定义收益函数。但是在有些问题中，目标并不容易被翻译成收益函数，尤其是当这些问题需要智能体做非常有技巧性的动作来完成复杂任务或者一系列任务的时候就更是如此，例如家务机器人助理所需要解决的问题。更进一步，强化学习智能体可能会发现一些意想不到的方法使得环境可以给出收益信号，但其中有一些可能是我们并不想要的，甚至有时是很危险的方法。这对于任何像强化学习这样依赖于优化的算法而言，都是一个长期存在并且非常关键的挑战。我们将在17.6节，也就是本书的最后一节中详细讨论这个问题。

即使有一个简单且易于辨识的目标，收益稀的问题仍然时常出现。足够紧地提供非零收益让智能体实现一次目标，本身就已经是一个今人畏惧的挑战，更不要说让它高效地从各种各样的初始状态下进行学习了。那些可以明确地触发收益的“状态动作”二元组可能很少，而且相互之间隔得很远：且代表着向目标前进的收益也可能并不常见，因为朝
向目标的进步总是很难甚至是无法衡量的。智能体可能会长期没有目的地漫游（ Minsky
1961所称的“高原问题”）。

在实践中，设计收益信号通常会归到一个反复试验的搜索过程，直到找到一个可以产生合理结果的信号。如果智能体没有成功学习，学得太慢，或者学习到了错误的东西，那么这个应用的设计者会调整收益信号并且再试一次。为了做到这一点，设计者会对智能体的表现用某种评估标准来衡量，而他会把这种评估标准翻译成一个收益信号，使得智能体的目标和设计者自己的目标相匹配。如果学习的进程大慢了，那么设计者可能会尝试设计个非稀硫的信号，其可以在智能体与环境交互的过程中更有效地指导学习。解决稀硫收益问题的一个非常诱人的手段是，以设计者认为达到最终目标所经历的重要的几个阶段作为子目标，对这些子目标提供收益函数。但是，当使用这些有明确目的性的补充收益来扩充原来的收益函数时，也可能会使智能体的行为与我们的预期大相径庭智能体可能最终根本不会达到总的目标。一个更好的提供这样的指导的方法是，把收益函数放在一边而对价值函数的逼近过程进行扩充，给它扩充一个描述最终目标的初始猜测，或描述部分目标的初始猜测。例如，假设我们想把：S→R作为真实的最优价值函数
U。的一个初始猜测，并且我们使用关于特征x:S→Rd的线性函数逼近，那么我们可以
把初始的价值函数逼近形式定义为：

然后按照惯例更新权重w，如果初始的权重向量是0,那么初始的价值函数则是t,
但是渐近解的质量会像往常一样由特征向量决定。可以针对任意的非线性函数通近器和任
意形式的u来做这种初始化，尽管这并不保证能加速学习。

一个处理稀疏收益问题的非常有效的方式是塑造技术，它由心理学家B.F. Skinne
提出，并在本书的14.3节中有所介绍。这种技术的有效性依赖于一个事实：稀疏收益问题并不只是收益信号本身的问题，它们也是智能体策略的问题，有些策略会阻碍智能体频繁达到可以产生收益的状态。塑造技术会在学习过程中不断改变收益信号：给定智能体的初始行为，从一个不那么稀疏的收益信号开始，渐渐地把它调整到适合最初感兴趣的问题的收益信号。智能体面临一系列难度逐渐増加的强化学习问题，其中在每个阶段学习到的东西，可以让下一个更难的问题变得相对简单一些。这是因为智能体通过学习简单问题得到了先验知识，这些知识使得它能够更加频繁地获得复杂问题下的收益；而如果不学习先验知识就直接优化复杂问题的收益，则收益会非常稀疏。“塑造”是训练动物过程中的个基础技术，它在计算强化学习中非常有效。

如果我们对于收益信号如何设计一筹莫展，但是有另外一个智能体，它可能是一个人类，已经是该领域的专家，并且它的行为可以被我们观察到，那么我们可以如何利用这点呢？在这种情况下，我们可以使用被称为“模仿学习”“从示范中学习”和“学徒学习”的算法。这里的思想是从专家智能体中获得收益，同时保留进一步提升的可能性。从专家的行为中学习可以通过直接的有监督学习，或者通过被称作“逆强化学习”的技术抽取收
益函数，然后使用强化学习算法从这个收益函数学出一个策略。Ng和Rusl(200研
究了逆强化学习的任务，他们尝试仅仅从专家的行为中恢复出专家的收益信号。但这种做法无法找到精确解，因为一个策略可能对很多个不同的收益信号而言都是最优的（例如，任何对所有状态和动作给予相同收益的信号）。但是，我们仍然可能找到合理的候选收益信号。只不过这个过程需要很强的假设，包括对环境动态特性的先验知识，以及与收益信号成线性关系的特征向量。同时，这个方法也要求对问题做多次完全求解（例如通过动态
规划）。虽然有这些困难，但是 Abbeel 7和Ng(2004)称逆强化学习有时会比有监督学习更
有效
另一个找到好的收益信号的方法，是将试错搜索过程自动化以找到好的信号。从应用角度来说，收益信号是学习算法的一个参数。正如我们可以对算法的其他参数所做的那样，我们可以自定义可行的搜索空间，然后用优化算法自动优化这些收益信号。优化算法是这样评估每一个候选收益信号的：以该收益信号运行强化学习算法若干步，然后用一个包含设计者真实目标的“高级”目标函数来计算评分，不需要考虑该智能体的局限。甚至
可以通过在线梯度上升来提升收益信号，其中梯度来自于高级的目标函数（Sorg、 Lewis和 Singh,2010)。把这个算法与真实世界相联系的话，优化高级目标函数可以类比为进
化，其中高级优化函数代表动物的进化适应程度，这通过能活到繁殖年龄的后代数量来衡量。

这种具有上下两层优化算法（一层类似于进化，另一层是智能体个体的强化学习）
的计算实验已经证实，直觉本身并不总足以用来设计一个好的收益信号（ Singh、 Lewis和 Barto,200)。利用高级目标函数所衡量的强化学习智能体的性能表现，可能会对智能
体收益信号的某些细节方面特别敏感，这些敏感性来源于智能体本身的局限以及它在其活动和学习的环境。这些实验也表明一个智能体的目标不应该总是与智能体设计者的目标一致。

最初这件事情显得很反直觉，但是对于一个智能体而言，它不可能不管收益信号是么就达到设计者的目标。智能体需要在很多限制下学习，例如有限的计算能耗、有限的环境信息或者有限的学习时间。当有这样那样的限制的时候，学习去达成一个与设计者目标
不同的目标，而不是直接去追求设计者的目标（Sorg、 Singh和Lewi,2010:Sorg,201)
这可能有时会更加接近于设计者的初衷。在自然界中很容易找到这样的例子，因为我们不能直接接触到大多数食物的营养值，我们的收益信号的设计者一一进化一一给予我们
一个收益信号让我们去找某些特定味道。尽管这当然并不绝对可靠（事实上，在某些与祖先环境不同的环境中可能是有害的），但这个信号补偿了我们之前许多的限制：有限的感官功能，有限的学习时间，以及在寻找健康饮食的过程中进行个体尝试实验所冒的风险。类似地，因为动物并不能实际观察到它的进化适应性，所以进化适应性的目标函数本身并不能作为收益信号。相反，进化过程所提供的一系列收益信号都是可以观测的，并且是对进化适应性敏感的。

最我们要记住，强化学习智能体并不一定是一个完整的有机物或者机器人。它可能是一个更大的行为系统的一部分。这意味着收益信号可能被更大的行动智能体内部的事情所影响，例如动机、记忆、想法甚至幻觉。收益信号可能也依赖于学习过程本身的一些性质，比如衡量学习中进步了多少。让收益信号对这样的内部信息敏感，可以使智能体作为“认知架构”的一部分，学习如何控制认知架构，同时也可以获取一些特定的知识和技能。这些技能很难只依赖于外部的收益信号学习到。这种可能性导致了“内在激励的强化学习”这个思想，稍后我们会简要地讨论这个问题。

5 遗留问题

在本书中，我们介绍了通向人工智能的强化学习方法的基础知识。粗略地说，这个方
法依赖于模型无关和模型相关的方法的结合（如第8章中的Dyma框架所示），并利用第Ⅱ
部分中介绍的函数通近技术。其中的关注焦点是“在线”和“增量式”的算法（我们甚至认为这些方法比基于模型的方法更为基本），以及如何在离轨策略训练的情形中使用这些算法。后者的完整应用只在这最后一章中有所阐述。也就是说，我们之前一直将离轨策略学习视为解决试探和开发之间矛盾的一种吸引人的方式，但是只有在这一章中，我们才真正完整地讨论了依赖于离轨策略学习的应用，包括学习GVF的同时也学习多个不同的辅助任务，还有通过时序摘要的选项模型来对世界进行层次化的学习。正如我们不断在本书中指出的，并且本章中所讨论的未来潜在研究方向也表明，目前仍有很多工作有待完成。但是，假设我们认可本书中全部的内容以及本章到现在为止所概括的全部方向，那么还剩下的是什么呢？当然我们不能确切地知道什么是需要的，但是我们可以做一些猜测。在这
・节中我们强调6个更长远的问题，有待未来的研究去解决。

第一个问题是，我们仍然需要更强大的参数化函数逼近方法，它应当可以在完全增量式和在线式的设置下很好地工作。基于深度学习和人工神经网络的方法是这个方向上的重要一步，但是它们仍然只是在极大的数据集上批量训练才能得到很好的效果，要么是大量离线地自我对局博弈，要么是通过多个智能体在同一个任务上交错地采集经验来学习。这些以及其他的一些设置都是为了解决当下的深度学习方法的局限，即深度学习方法在增量式、在线式学习的设定下会陷人挣扎，而增量式和在线式学习又恰恰是本书中强调的最自然的强化学习方法的特质。这个问题又被称作“灾难性的干找”，或者“相关的数据”。每当学习到一些新的东西时，它都倾向于忘记之前学的东西，而不是将新知识作为补充，这会导致之前学习到的那些优点都丢失。例如“回放缓存”之类的技术经常被用于储存和重新导出旧的数据，使得之前学到的优点不至于永久丢失。我们必须诚实地说，目前的深度学习方法并不完全适合在线学习。我们找不到这种限制无法解决的理由，但是迄今为止，在保持深度学习优势的同时解决这个问题的算法仍然还没有被设计出来。大部分当下的深度学习研究的导向是在这个限制下工作而不是去掉这个限制。

第二点（也许是紧密相连的），我们仍然需要一些方法来学习特征表示，使得后续的学习能够很好地推广。这个题是一个更广义的问题（被称为“表征学习”“构造型归纳”和“元学习”）的例子。我们如何使用经验去学习归纳各种偏差，使得未来的学习能够得到更好的推广也因此学得更快，而不只是学习一个想要的函数。这是一个很老的问题，可以道潮到20世纪50年代和60年代的人工智能和模式识别的起源。这样的年代可能会止人感到犹豫，也许这个问题没有好的解决方案。但是同样也有可能是我们尚未到达找出解决方案并展示它的有效性的阶段。如今的机器学习是在一个远大于过去的规模上进行的。一个好的表征学习方法可能带来的收益越来越清晰。我们注意到，在一个新的机器学
习年会一一国际表征学习会议（ International Conference on Learning Representations
ICLR）上，自2013年起每年都有人採讨这个问题。但在强化学习的语境下探索表征学习则不是那么常见。强化学习给这个旧间题带来了许多新的可能性，例如17.1节中提到的轴助任务。在强化学习中，表征学习的问题与173节中讨论的学习状态更新函数的问题是一致的。

第三点，我们仍然需要使用可扩展的方法在学习到的环境模型中进行规划。规划方
法已经被证明在某些应用上极为有效，如 Alphago Zero和计算机国际象棋等，这些问题
中的环境模型可以从游戏的规则或者人类设计者的知识中完整地得到。但是在完全基于模型的强化学习任务中，需要从数据中学习环境模型，然后再用于规划，可很少有成功的例
子。第8章中介绍的Dyna系统是一个例子，但是正如我们当时所讨论并且也在大部分
随后的工作中被人提及的，它使用了一个不带函数通近的表格型模型，这在很大程度上限了它的应用范国。只有少部分的研究探讨了线性模型的使用、更少的研究同时了在172节中讨论的基于选项的时序摘要方法。

为了使规划方法可以在学习得到的环境模型上有效地使用，我们还需要做很多工作。例如，模型的学习过程应该是选择式的，因为模型的范国会严重影响规划的效率。如果一个模型注重于最重要的选项的关键结果，则规划可能是快速和高效的；但是如果一个模型包含了不太可能被选到的选项的非主要后果的详细信息，则规划可能几乎没有什么用。环境模型应该以优化规划过程为目标，谨值而明智地构建其状态和动态特性。应该持续地监测模型的各个方面，以了解它们对规划效率贡献或者减损的程度。本领域尚未解决这个复杂的问题或者设计出考虑其影响的模型学习算法。

第四个在未来的研究中需要重点解决的问题，是自动化智能体的任务选择过程，智能体在这些任务上工作并且使用这些任务提升自己的竞争力。在机器学习中，人类设计者为智能体设计学习的目标是一件很常见的事情。因为这些任务是提前已知而且固定的，因此它们可以被内嵌在学习算法的代码中。然而如果我们看得更远一些，则我们可能希望智能体对于将来想掌握什么技能做出自己的选择。这可能是某个特定的已知的大任务中的一个子任务，或者它们可能意图创造一些积木式的模块，允许智能体在一些尚未见过但是将来可能面临的问题上更加高效地学习。

这些任务可能像17.1节中讨论的辅助任务或者GVF，或者是用17.2节中讨论的基于选项的方法解决的任务。例如在构建一个GVF的过程中，累积量、策略、终止函数分别应该是什么样子的？当前的最优方法是手动选择它们，但是如果我们可以把这些任务选择变得自动化，那么它可能会更强大并且推广性也更强，尤其是当任务选择来自于智能体已经构建的一些“积木”的时候就更是如此，这些“积木”可能是之前在表征学习或者在子问题的经验学习中产生的结果。如果GVF的设计是自动化的，那么设计的选择本身将会被显式地表达出来：它们将会在计算机中以一种可以设置、改变、操控、筛选和搜索的方式自动组织起来，而不是在设计者的大脑中，随后写进代码里。之后任务可以一个接着
一个地被层次化组织起来，就像人工神经网络中的特征一样。任务就是一个一个的问题，而人工神经网络的内容就是这些问题的答案。我们期望将来有一个完整的层次化的问题与现代深度学习方法提供的层次化的答案相匹配。

第五个我们认为对未来研究至关重要的问题是，通过实现某种可计算的好奇心来推动行为和学习之间的相互作用。在本章中我们想象过一个场景：从一个经验流中，通过离轨策略的方法，同时学习多个任务。采取的动作当然会影响经验流，而经验流反过来也会决定学习会出现多少次，什么任务将会被学习。当收益信号不可用，或者不被智能体行为强烈影响的时候，智能体可以自由选择动作，在某种意义上最优化这些任务上的学习，也就是说使用某些衡量学习进度的指标作为内在的收益，来实现一种“好奇心”的计算形式。除了衡量学习进度之外，内在的收益函数可以以其他的可能性，找到最出人意料、新奇或者有趣的输人，或者评价智能体对环境造成影响的能力。用这些方式产生的内在收益信号，可以被智能体用来给自己提出任务，任务的提出可以通过定义辅助任务、GVF或者选项等方式实现，以使得学到的技能可以提升智能体掌握未来任务的能力。从结果上看，这很像计算意义上的玩要。现在已经有了很多关于使用内在收益信号的研究，在这个大的方向上还有很多激动人心的话题，等待未来的研究去揭示。

最后一个在将来的研究中需要注意的问题是开发足够安全（达到可以接受的程度）的方法将强化学习智能体嵌入真实物理环境中，从而保证强化学习带来的好处超过其带来的危害。这是未来研究最重要的一个方向之一，我们将在下一节中讨论它。

6、

我们在20世纪90年代中期撰写本书第1版的时候，人工智能取得了显著的进展，而且产生了一定的社会效应，尽管这个时期大多数激动人心的进展只是品示出人工智能可能的前景而已。机器学习就是这个前景中的一部分，但是对于人工智能而言还不能算是不可或缺的。如今人工智能的前景已经落地为应用，而且正在改变百万人的生活。机器学习本身也成为了一项关键技术。在我们写本书第2版的时候，一些人工智能方面最卓越的成就已经包括了强化学习技术，比如著名的“深度强化学习”一一强化学习与深度人工神经网络结合。我们正处在一波人工智能真实场景应用的浪潮之中，它们中将会有很多都使用深度或者非深度的强化学习，我们很难预料它们将以什么样的方式影响我们的生活。

但是大量真实世界中的成功案例并不代表真正的人工智能已经实现了。尽管人工智在很多领域都取得了很大的进展，但是人工智能与人类智能，甚至与动物智能之间的鸿海都是很大的。人工智能在某些领域能有超过人类的表现，甚至是围棋这种非常难的游戏然而开发像人类这样完整地拥有通用适应性和解决问题的能力、复杂的情感系统和创造力，以及从经验中快速学习的能力的可交互式的智能体仍然任重道远。强化学习作为一关注于动态环境交互式学习的技术，在将来会发展为这种智能体的不可或缺的部分。强化学习与心理学及神经科学的联系（第14和15章）弱化了其与人工智能其他的出期目标之间的关联，即掲示关于心智的一些关键问题，以及心智如何从大脑中产生。强化学习已经帮助我们理解了大脑的收益机制、动机和做决策的过程。因此有理由相信，在计算精神疾病学相结合之后，强化学习将会帮助我们研发治疗精神亲乱，包括药物濫用和药物成的方法。

强化学习在未来将会取得的另一个成就是辅助人类决策。在模拟仿真环境中进行强化学习，从中得到的决策函数可以指导人类做决策，比如教育、医疗、交通、能源、公共部门的资源调度。与其密切相关的一个强化学习的特征是，它总是考虑决策的长期效应。这在围棋和西洋双陆棋中是非常明显的，这些也正是强化学习给人留下最深刻印象的案例同时这也是收关我们人类和星球命运的诸多高风险决策的特征。在过去的很多领域中策分析人员已经使用了强化学习，并将其决策用于指导人类。使用高级的函数通近方法和大量的计算资源，强化学习方法已经展现出了一些潜力，期望攻克将传统决策辅助方法推广到更大规模、更复杂问题的难题。
人工智能的快速发展让我们开始担心它可能对社会甚至人类本身造成严重的威胁。著
名的科学家和人工智能先驱 Herbert Simon早在2000年（ Simon,2000手CMIU举办的地球研讨会（ Earthware Symposium）上的一个演讲中，就预言了这一点。他指出在任何
新形式的知识中，前景和危险都存在着永恒的冲突。他用古希腊神话中普罗米修斯和潘多拉之盒的例子打比方，现代科学的英雄普罗米修斯，为了人类的福社，从诸神那里盗取火
种；而开启潘多拉之盒，只是一个小小的无意之举，却给人类带来了灾难。 Simon认为我
们需要承认这样的冲突是不可避免的，同时应该把自己当作未来的设计者而不是观众，我们更倾向于做普罗米修斯那样的决策。这对于强化学习来说非常正确，如果不就地部署强化学习，它在给社会带来福利的同时，也有可能造成我们不希望看到的后果。因此，包括强化学习在内的人工智能应用，其安全性是一个需要重视的课题。

一个强化学习智能体可以通过与真实世界环境、模拟环境（模拟真实世界的一部分）或者这两者的结合环境进行交互而学习。模拟器提供安全的环境，以供智能体自由试探，而不需要考虑对自己/环境带来的危害。在大多数现有的应用中，决策是通过与模拟环境交互，而不是直接与真实世界交互学习到的。除了避免在真实世界中造成不希望看到的后果之外，在模拟环境中学习，可以得到模拟的无穷无尽的数据，这比在真实环境中得到这些数据要容易得多。而且由于在模拟环境下，因此交互的速度通常比在真实环境中快，般在模拟环境中的学习也要快于在真实世界环境中的学习。

然而，展现强化学习的全部潜力需要将智能体置于真实世界的经验流中，在我们的真实世界中行动、试探、学习，而不是仅仅在它们的虚拟世界中。总而言之，强化学习算法（至少在本书中关注的那些）被设计成在线式的，并且它们在很多方面都在效仿动物如何在不稳定和有敌人的环境下存活。嵌入真实世界中的强化学习智能体可以在实现人工智能放大、扩充人类能力的过程中起到变革性的作用。

希望我们的强化学习智能体在真实环境中学习的一个主要原因是：以极高的保真度模拟真实世界的经验通常是很困难甚至是不可能的，因而很难保证在模拟世界学习到的策略，无论是通过强化学习还是其他别的方法学到的，其可以安全并良好地指导真实的动作。这对于某些依赖于人类行为的动态环境而言尤其明显，例如，教育、医疗、交通、公共政策，在这些环境中，提升决策力可以带来切实的收益。然而部署这些智能体到真实世界中，需要考虑人工智能可能造成的危险。
其中有些危险是与强化学习密切相关的。因为强化学习依赖于优化，因此它继承所有优化方法的优点和缺点。其中一个缺点是设计目标函数的问题，在强化学习中这被称作收益信号，它帮助智能体学到我们想要的行为，同时规避那些我们不想要的行为。我们在17.4节中提到，强化学习智能体可能会试探到意想不到的方式，通过这种方式使它们的环境传递收益，而有些方式并不是我们想要的，甚至是危险的。当我们只是非直接地制定我们想要系统学习的东西时，正如我们设计强化学习的收益信号那样，在学习结東之前，我们不会知道我们的智能体距离完成我们的期望有多近。这并不是强化学习所带来的新问题，在文学和工程实践中这个问题的提出已经很久了，例如在歌德的诗歌
“魔法师的学徒”（ Goethe1878)中，学徒对扫帚施法，以帮助他取水，但结果却造成了出人意料的洪水，这是因为学徒对魔法的掌握不到家。在工程中， Norbert Wiener，控制论（ cybernetics）的莫基人，早在半个世纪以前就指出了这个题。他把这个问题联系到了一个超自然的故事“猴子的爪子”（ Wiener,19640):“它满足了你向他要的，但并不是你应该向他要的，或者不是你本来的意图。”这个问题也在现代的文献中有长篇讨论（Nd
Bostrom2014)。任何在强化学习方面有经验的人都可能发现他们的系统找到了一些出人
意料的方式来提高收益。有些时候意想不到的行为是很好的，它以一种全新的方式解决了问题。但是在其他情况下，智能体学习到的东西违背了系统设计者的初衷，因为设计者完全没有考虑到某些情况。仔细设计收益函数是非常重要的，它帮助智能体在真实世界中行动，且不会给人类以观察其行为和动机并轻易干扰它的行为的机会。

尽管优化可能带来非预期的负面效果，但数百年来，优化一直在被工程师、架构师还有潜在的可能造福人类的设计者们广泛使用。我们生活中很多好的方面都依赖于优化算法的应用。另一方面，也有很多方法被提出来解决优化潜在的风险，例如增加硬或软的约束，使用鲁棒和风险低的策略来限制优化，使用多目标函数优化等。这些方法中有些已经用到了强化学习中，而且更多这方面的研究还有待进行。如何把强化学习智能体的目标调整成我们人类的目标，仍然是个难题。

另一个强化学习在真实世界中行动和学习带来的挑战是，我们不仅仅关注智能体学习的最终效果，而且关注其在学习时的行为方式。如何保证智能体可以得到足够多的经验以学习一个高性能的决策，同时又能保证不损害环境、其他智能体或者它本身（更现实地说如何把伤害的可能性降得尽可能低）？这个问题并不新鲜，也不只在强化学习中存在。对于嵌入式强化学习，风险控制和减轻问题与控制工程师们在最初使用自动化控制时所面临的同题是一样的。那时控制器的行为并不可控，很多时候还可能有灾难性后果，例如对飞机和精密化学过程的控制。控制的应用依赖于精细的系统建模、模型验证和大量的测试。关于让事先完全不了解的动态系统保证收敛和适配控制器的稳定性，已经有大量的理论。理论的保证从来不是万能的，因为它们依赖于数学上的假设成立。但是如果没有这些理论与风险控制和减轻的实践相结合，自适应或者其他类型的自动控制就不会像今天我们看到的那样，可以有效地提升质量、效率和成本收益。未来强化学习研究最重要的方向之一是适应和改善现有方法，以控制嵌入式的智能体在可接受的程度上足够安全地在真实物理环境中工作。
在最后，我们回到 Simon的号召：我们要意识到我们是未来的设计者，而不仅仅是
观众。通过我们作为个体所做的决策，以及我们对于社会如何治理所施加的影响，我们可以共同努力以保证新科技带来的好处大于其带来的危害。在强化学习领域里有充足的机会来做这件事情，因为它既可以帮助提升这个星球上生命的质量，促进公平和可持续发展也有可能带来新的危机。现在已经存在的一个威胁就是人工智能应用造成了许多人的失业。当然我们也有充分的理由去相信，人工智能带来的好处将远大于其造成的危害。关于安全问题，强化学习带来的危害并没有和当下已经被广泛采用的相关领域的控制优化算法带来的危害有本质的区别。强化学习未来的应用涉足真实世界时，开发者们有义务遵循同类技术中成熟的实践经验，同时拓展它们，以保证普罗米修斯一直占据上风。

参考文献历史评注

17.1广义的价值函数最早是 Sutton和他的同事（ Sutton,195a; Sutton et al,201; Modayil、
White和Sutn,2013)提出的。Ring提出了（正在准备中）一种使用GVF（“预报”）的
延伸思想实验，已经有一定的影响力，不过尚未发表。
使用多个头部的强化学习是由 Jaderberg et al.(2017)首次展示的， Bellemare、 Dabney和 Munos(2017)等人证实了预测收益分布的更多信息可以显著提升学习速度来实现对其期望
的优化（这也是辅助任务的一个例子）。在这之后，很多研究者都开始在这个方向开展研究工作
就我们所知，经典条件反射作为学习预测的一般理论以及对预测的内在反射性反应并没有在
心理学的文献中得到过明确阐述。 Modayil和Sutn(2014)将其描述为一种控制机器人和其
他智能体的方法，称为“巴甫洛夫控制”，暗示其根源为条件反射。

172将动作的时序摘要过程形式化为“选项”的过程是 Sutton、 Precup和 Singh(199等人提出
的，这也基于前人的工作，包括Par(199和Sutt(1995a）以及半MIDP的经典工作（例如，见 Puterman,1994). Precup(200的博士论文完整地提出了选项的思想。这些早期工
作一个很大的局限是它们没有处理离轨策略情况下的函数逼近。选项内部的学习通常来说需要离轨策略方法，那时还不能通过函数通近来可靠地完成。尽管现在我们有了一系列使用函数通近的稳定离轨策略算法，但它们与选项的结合并没有在本书出版的时候被真正地发掘出
来。 Barto和 Mahadevan(200还有 Hengst(2012)回顾了形式化的选项，还有其他的时序
摘要算法。
使用GVF实现带选项的模型在前文中没有提到。我们的介绍中使用了 Modayil、 White和 Sutton(2014)等人提出的技巧，在策略结束的时候预测信号。
第17章前沿技术
使用函数通近来学习带选项的模型的部分工作由 Bacon、Harb和 Precup(2017)等人提出。
目前的文獻中还没有人提出把选项和带选项的模型拓展到平均收益的情形。
173 Monahan(1982)给出了一个关于 POMDP方法的很好的展示。PSR和测试序列的概念由 Littman、 Sutton和 Singh(2002)等人提出。OOM由 Jaeger(1997,1908,2000提出。统一PSR、OOM和很多其他工作的序列系统，由 Michael Thon(2017;Thon和3 Beger
2015)在博土论文中提出。
强化学习与非马尔可夫状态表示的理论由 Singh、 Jaakkola和 Jordan(194; Jaakkola, Singh和 Jordan,1995)明确提出，早期的处理部分可观测性的强化学习方法由 Chrisman(192)
Mccallum(1993, 1995). Parr i Russell(1995). Littman Cassandra M Kaelbling(1995)
还有 by Lin和 Mitchell(1992)提出
17.4早期关于强化学习的建议和教学参考包括Lin(1992), Maclin和 Shavlik(199), Clouse(1996),还有 Clouse和 Utgoff(192)
不应该将 Skinner的塑造技术与Ng、 Harada和Rusl(190提出的"基于的造”技术相混酒。 Wiewiora(2003)说明了该技术实际上与一个更简单的思想等价：给价值函数提供
初始近似，如式（17.11)所示。

17.5我们推荐由 Goodfellow、 Bengio和 Courville(20160)所著的讨论当下深度学习技术的书ANN中的灾难性干找问题由 Mccloskey和 Cohen(1989), Ratcliff(1990),还有 French(1999提出。回放缓存的技术由1in(1992)提出，其著名应用是Atan游戏系统（165节
Mnih et al.,2013,2015).
Minsky(1961)是第一个认识到表征学习问题的人。
为数不多的使用学习到的近似模型做规划的研究由 Kuvayev和 Sutton(1996), Sutton
Szepesvari、 Geramifard和 Bowling(2008), Nouri和 Littman(2009),还有 Hester和 Stone
（2012)等人做
在人工智能中，模型的设计需要仔细选择以避免过慢的规划，这是人们熟知的。一些经典的工
作包括 Minton(1990和 Tambe、 Newell,还有 Rosenbloom(199 Hauskrecht、 Meulear
Kaelbling、Dean和 Boutilier(1998)在带确定性的选项的MDP中展示了相应的效果
Schmidhuber(1991a,b）指出，如果收益信号是关于智能体的环境改普得有多快的一个函数那么像好奇心那样的事情会导致怎样的后果。由 Klyubin、 Polan和 Nehaniv(200提出的
授权函数是一个信息理论的度量，衡量智能体控制环境的能力，它也可以作为一种内在的收益
信号。 Baldassarre和 Mirolli(2013)的文章研究生物学和计算角度上的内在收益和动机，包括一种“内在激励的强化学习”的观点，使用了由 Singh、 Barto和 Chentenez(2004)提出的术语。同时可以参考 Oudeyer和 Kaplan(2007), Oudeyer、 Kaplan和 Hafner(200),还有 Barto(2013)的工作。

你可能感兴趣的:(强化学习)

强化学习【chapter0】-学习路线图明朝百晓生算法人工智能机器学习
前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAISpinningUp/RLlib文档）Chapter1：基
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解 John_今天务必休息一天 2_大语言模型基础 #2.2 生成式预训练语言模型GPT gpt log4j 语言模型人工智能自然语言处理算法
Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？（2）InstructGPT的优化方案二、输入输出与损失函数的具体构造（1）输入输出示例（2）人工标注数据的处理（3）损失函数的计算过程（4）反向传播的核心逻辑三、为什么不需要人工标注分值？（1）排序数据的天然属性（2）避
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
星际争霸多智能体挑战赛（SMAC）资源存储库多智能体强化学习人工智能
目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体强化学习Dec-POMDPs12-POMDPs（十二月-POMDP）Centralisedtrainingwithdecentralisedexec
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1 行云流水AI笔记开源算法
以下是DQN（DeepQ-Network）和PPO（ProximalPolicyOptimization）的全面对比流程图及文字解析。两者是强化学习的核心算法，但在设计理念、适用场景和实现机制上有显著差异：graphTDA[对比维度]-->B[算法类型]A-->C[策略表示]A-->D[动作空间]A-->E[学习机制]A-->F[探索方式]A-->G[稳定性]A-->H[样本效率]A-->I[关键
PettingZoo:多智能体强化学习的标准API 资源存储库多智能体强化学习人工智能深度学习
PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1介绍2BackgroundandRelatedWorks2背景及相关工作2.1PartiallyObservableStochasticGamesandRLlib2.1部分可观察随机
神经网络架构搜索 IJCAST主编进化计算神经网络架构人工智能
InternationalJournalofComplexityinAppliedScienceandTechnology，投稿网址:https://www.inderscience.com/jhome.php?jcode=ijcast,发表论文不收取任何费用，论文平均审稿25天内即可录用。1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
强化学习-双臂老虎机 transuperb 强化学习人工智能
本篇文章模拟AI玩两个老虎机，AI需要判断出哪个老虎机收益更大，然后根据反馈调整对于不同老虎机的价值判断，如果把这个看作一个简单的强化学习的话，那么AI就是agent，两个老虎机就是environment，AI首先会对两台老虎机有一个预测值Q，预测哪一个的价值高，然后AI通过策略函数判断应该选择哪个老虎机，进行Action后根据Reward更新每个老虎机的价值Value，然后再进行下一次判断，直到
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
解析AI算力网络与通信领域强化学习的算法 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构人工智能网络算法 ai
解析AI算力网络与通信领域强化学习的算法：从"快递员找路"到"智能网络大脑"关键词：AI算力网络、通信领域、强化学习、马尔可夫决策、资源调度摘要：本文将用"快递物流系统"的类比，带您理解AI算力网络与通信领域如何通过强化学习实现智能决策。我们会从核心概念讲起，逐步拆解强化学习在网络资源调度中的算法原理，结合Python代码实战，最后探索其在5G/6G、边缘计算等场景的应用。即使您没学过复杂数学，也
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
强化学习实战：从 Q-Learning 到 PPO 全流程荣华富贵8 程序员的知识储备2 程序员的知识储备3 人工智能算法机器学习
1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析，深入探讨强化学习的核心原理、算法演
基于CTDE MAPPO的无线通信资源分配强化学习实现 pk_xz123456 仿真模型深度学习算法 lstm 人工智能 rnn 深度学习开发语言
基于CTDEMAPPO的无线通信资源分配强化学习实现摘要本文提出了一种基于集中训练分散执行(CTDE)框架的多智能体近端策略优化(MAPPO)方法，用于解决无线通信网络中的资源分配问题。我们设计了一个多基站协作环境，其中每个基站作为独立智能体，通过分布式决策实现网络吞吐量最大化。实验结果表明，MAPPO算法在频谱效率和用户公平性方面显著优于传统启发式算法。1.引言1.1研究背景随着5G/6G通信技
强化学习系列——PPO算法 lqjun0827 算法深度学习算法人工智能
强化学习系列——PPO算法PPO算法一、背景知识：策略梯度&Advantage二、引入重要性采样（ImportanceSampling）三、PPO-Clip目标函数推导✅四、总结公式（一图总览）参考文献PPO示例代码实现补充内容：重要性采样一、问题背景：我们想估计某个期望❗问题：二、引入重要性采样（ImportanceSampling）三、离散采样形式（蒙特卡洛估计）四、标准化的重要性采样五、在强
人工神经网络：架构原理与技术解析 weixin_47233946 架构
##引言在深度学习和人工智能领域，人工神经网络（ArtificialNeuralNetwork,ANN）作为模拟人脑认知机制的核心技术，已在图像识别、自然语言处理和强化学习等领域实现了革命性突破。从AlphaGo击败人类顶尖棋手到ChatGPT的对话生成能力，ANN的进化持续推动技术边界的扩展。本文将深入剖析人工神经网络的核心原理、技术实现与发展趋势。##一、基础概念与数学模型###1.1生物启发
医疗AI新势力：自演进多智能体MAS的进击之路 Allen_Lyb 医疗高效编程研发人工智能健康医疗机器学习架构大数据
医疗AI新势力：自演进多智能体MAS的进击之路往期相关文章：Python在开放式医疗诊断多智能体系统中的深度应用与自动化分析基于多智能体强化学习的医疗AI中RAG系统程序架构优化研究自演进多智能体在医疗临床诊疗动态场景中的应用医疗AI的新变革在数字化与智能化飞速发展的时代，人工智能（AI）已经逐渐渗透到医疗领域的各个角落，成为推动医疗行业变革的重要力量。从疾病的早期诊断到个性化治疗方案的制定，从医
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化 pk_xz123456 仿真模型深度学习算法算法人工智能制造
无线通信中的多智能体强化学习：基于CTDE-MAPPO的功率控制优化摘要本文提出了一种基于集中训练分布式执行(CTDE)框架的多智能体近端策略优化(MAPPO)算法，用于解决无线通信网络中的分布式功率控制问题。通过将多个基站建模为协作智能体，我们设计了一个多智能体强化学习系统，能够在复杂动态环境中实现全局网络效用的优化。本文详细介绍了系统架构、算法实现、实验设置以及性能评估，展示了MAPPO在5G
传统蒙特卡洛（Monte Carlo, MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大强化学习曾小健人工智能
传统蒙特卡洛（MonteCarlo,MC）方法在强化学习中直接把整条回报序列当作“真值”来估计价值函数，通常配合表格化存储，因此无需环境模型且估计无偏，但只能处理有限状态-动作空间且方差较大medium.comanalyticsvidhya.comincompleteideas.net。“深度蒙特卡洛”（DeepMonteCarlo,DMC）则保留“按回报直接更新”的思想，却用深度网络来逼近$Q(
使用Simulink结合MATLAB进行基于强化学习控制下的动态滤波器参数调节系统的仿真 amy_mhd matlab 开发语言
目录一、背景介绍二、所需工具和环境三、步骤详解步骤1：定义系统需求示例：定义系统需求步骤2：准备强化学习环境步骤3：训练强化学习代理步骤4：创建Simulink模型步骤5：添加信号源步骤6：合并信号步骤7：导入强化学习代理步骤8：设计滤波器步骤9：可视化结果步骤10：连接各模块步骤11：设置仿真参数步骤12：运行仿真并分析结果四、总结在现代信号处理领域，动态调整滤波器参数以适应不断变化的环境条件是
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

【17】 强化学习 17章 前沿技术