《强化学习》第二版 阅读随笔1

开篇第一页,是作者的致谢
In memory of A. Harry Klopf
前言部分介绍了作者如何走上强化学习之路,前言的机翻可以参考下面的文章。
详情参考

说明:

agent:reinforcement leaning agent——学习主体,强化学习模型。

第一章——引言

1.1 什么是强化学习

  1. Learning from interaction is a foundational idea underlying nearly all theories of learning and intelligence. 像婴儿一样在与环境互动和实践中学习。
  2. The approach we explore, called reinforcement learning, is much more focused on goal-directed learning from interaction than are other approaches to machine learning. It explicitly considers the whole problem of a goal-directed agent interacting with an uncertain environment. 目标导向。
  3. These two characteristics—trial-and-error search and delayed reward—are the two most important distinguishing features of reinforcement learning. 试错搜索和延迟奖励是强化学习两项最显著的特点。
  4. Markov decision processes are intended to include just these three aspects—sensation, action, and goal—in their simplest possible forms without trivializing any of them. 一个具有学习能力的主体必须具有感知环境的能力、采取措施改变当前处境的能力、并且有一个行动目的。马尔可夫决策过程就包含这三个部分。这里的环境多数情况下是指模型的输入。

强化学习既不是有监督学习,也不是无监督学习而是自成一类

  1. In interactive problems it is often impractical to obtain examples of desired behavior that are both correct and representative of all the situations in which the agent has to act. 与监督学习不同(监督学习的本质是分类器),强化学习的应用场景多是那些无法获取准确无误且有代表性的训练样本的任务。这也就意味着学习主体将根据自己的“经历”获取“知识”,而不依赖于现成的训练集样本。
  2. Although one might be tempted to think of reinforcement learning as a kind of unsupervised learning
    because it does not rely on examples of correct behavior, reinforcement learning is trying to maximize a reward signal instead of trying to find hidden structure. 强化学习既不属于有监督学习也不属于无监督学习,从本质上来说,强化学习总是期望最大化“奖励指标”,而不是探求未被标记的样本之间的内在联系(无监督学习的本质,旨在减少人为标记样本的工作量)。

the trade-off between exploration and exploitation

  1. The agent has to exploit what it has already experienced in order to obtain reward, but it also has to explore in order to make better action selections in the future. 强化学习所面临的抉择是究竟使用过去所得经验还是采取全新的行动方案来解决问题。而这种抉择是不会在有监督或无监督学习中直接出现的。
  2. Of all the forms of machine learning, reinforcement learning is the closest to the kind of learning
    that humans and other animals do, and many of the core algorithms of reinforcement learning were originally inspired by biological learning systems. 相比与其他深度学习分支,强化学习最接近于我们所理解的“学习”过程。

1.2 强化学习的举例

示例带来的启示:

  1. 学习主体(agent)需要与环境的频繁间交互
    ——1.1 环境中充满不确定性
    ——1.2 学习主体(agent)的决策将对环境产生影响
    Correct choice requires taking into account indirect, delayed consequences of actions, and thus may require foresight or planning. 正确的决策需要将间接的、之后会发生的结果考虑在内。这需要足够的预见性和计划性。
  2. 行动结果的不确定性
    ——持续对环境进行监测并作出适当的响应,动作执行者(agent)需要以对环境的感知来判断是否距离目标更近一步,强化学习是目标导向的,这也是我们的人类的思维行动方式。
  3. 执行者(agent)可以使用已有的经验在处理问题时获得更好的表现

1.3 强化学习的要素

要素 意义
策略(policy) 1. 策略(policy)是强化学习主体(agent)的核心。2. 应对策略(policy)是指从对环境的感知到采取行动的映射。3. 策略可以是一个函数或是一个查找表。4. 策略函数可能是随机的或是决定采取某种行动的概率
奖励信号(reward signal) 1.强化学习主体(agent)每采取一次行动都会从环境那里得到一个奖励信号。2.学习主体(agent)总是希望最大化奖励信号。3.奖励信号是策略选择的根本依据。4.一般来说,奖励信号可以是环境和行动的随机函数
价值函数(value function) 1. 价值函数是对行动所产生的长远影响的评判。2. 简单来讲,某种状态下的价值是从当前状态开始,学习主体(agent)在将来可以获得的奖励(reward)的总和。3. 价值(value)是对奖励(reward)的预期。4. 价值(value)基于奖励(reward),价值存在的意义是追求更高的奖励。5. 策略(policy)的选择基于对价值(value)的评判,因为在行动采取之前我们无法得知其所带来的后果(reward)。6. 价值(value)就是学习过程所得的经验,是强化学习最重要的组成部分,强化学习算法本质上就是价值估计算法
环境模型(model of the environment)【可选】 1. 环境模型不是强化学习算法的必要组成部分。2. 环境模型用于模拟环境可能产生的反应。3. 环境模型用于预估可能发生的情况并制定计划(planning)。4. 根据是否使用model,将强化学习算法分为 model-based以及model-free两大类。model-free模型就是trail-and-error模型(即试错模型)
  1. 为什么策略函数可以是随机函数?(感性理解:假期来一场说走就走的旅行,你可以在上车前决定自己的目的地,这很大程度上是一种随机。也取决于你当时的心境:排解寂寞,你希望来到繁华都市;释放压力,你可能向往山河湖海。这时目的地选择的概率又会变得有所倚重)
  2. 感性理解奖励信号(reward signal),很容易联想到人的痛觉。
  3. 奖励(reward)和价值(value)的反馈不一定一致:如果某次行动(action)得到了很差的reward signal却依然有很高的value,那么可能仅仅是因为学习主体(agent)根据“经验”采取了之前高reward的行动。
  4. Rewards are basically given directly by the environment, but values must be estimated and re-estimated from the sequences of observations an agent makes over its entire lifetime. In fact, the most important component of almost all reinforcement learning algorithms we consider is a method for efficiently estimating values.

1.4 限制和范围

对本书研究方向的论述

  1. Most of the reinforcement learning methods we consider in this book are structured around estimating value functions.
  2. Our focus is on reinforcement learning methods that learn while interacting with the environment.

1.5 一个扩展的例子:井字游戏

是一种在3*3格子上进行的连珠游戏,和五子棋比较类似,由于棋盘一般不画边框,格线排成井字故得名。游戏需要的工具仅为纸和笔,然后由分别代表O和X的两个游戏者轮流在格子里留下标记(一般来说先手者为X)。由最先在任意一条直线(包括斜对角线)上成功连接三个标记的一方获胜。——来源于百度百科
这里,我们认为平局或败局同样不利。我们的目标是使用强化学习模型做为选手参赛,并最大化获胜的概率。

  1. 构造价值函数:根据游戏中所有可能出现的状态建立一个查找表,每一个表项的值是我们从该状态最终获得胜利的概率估计。那么这个表格的初始化过程是这样的,假如我们使用的符号是X。首先将所有X连成一线的形况置1,因为我们已经赢了,相反,将O连成一线的情况置0,此时我们已经输了。把另外其他的所有状态获胜的概率标记为0.5.
  2. 下棋——即训练过程:
    2.1 大多数情况下我们根据当前游戏状态,遍历棋盘中空余位置所有可能出现的情况,并选择其中获胜概率最大的状态作为我们下一步的策略。这是贪心算法的思想。
    2.2 有时我们则会随机选择下一步的走法,为的是探索我们从未尝试过的策略。
    2.3 参数更新,即更新查找表中各个状态的概率。这个过程中也有反向传播的影子。正如下图中红色箭头标注的那样,再下每一步棋时我们将同时记录上一步棋所处的状态,当正向传播结束后(一轮比赛结束),我们将按照如下规则反向传播,对参数进行更新。
    在这里插入图片描述
    V指Value,即该状态的价值函数值,t+1代表状态t的下一个状态,a是学习率,用于调整学习速度。游戏最终状态非0即1(非输即赢),通过反向传播更新中间状态的value(获胜概率),最终获胜的概率将不断提高。
    隐含的前提:模型的对手是不完美的(imperfect),也就是模型总有机会获胜。如果怎么下都是输,所有游戏状态的价值(value)会等可能的降低,模型不会收敛。
    模型的适应性:如果模型的学习率不会逐渐衰减到0,对于对弈策略逐渐发生变化的对手,模型也是有机会适应的。
    其他:强化学习算法应用范围绝不仅是类似下棋的场景(Alpha Go etc.)。
    (1)没有明显重复步骤的时间连续性(continuous-time)问题
    (2)没有明确对弈目标(no external adversary)的问题
    (3)状态集无穷大的问题(井字棋的状态是可以穷举的,但围棋的可能的状态可以认为是无穷的)
    (4)强化学习模型在训练之前也可以引入一些先验知识来提高学习效率

图中黑色实线代表我们每一步棋的策略,虚线则代表我们在每一步行动前遍历过的其他可能。第二步棋(d–e)是一次随机选取(exploratory move),这样的过程不参与参数更新(do not result in any learning)

《强化学习》第二版 阅读随笔1_第1张图片

1.6 总结

  1. 在长期与环境交互中学习
  2. 马尔可夫决策过程
  3. 价值函数反映了强化学习的本质

1.7 强化学习的早期历史

你可能感兴趣的:(《强化学习》第二版,阅读随笔,强化学习)