强化学习第二版(翻译)第一章 导论 第一节 强化学习 1.1 Reinforcement Learning

    强化学习是就是在学习怎么做才能最大化奖励信号,既如何建立情景-动作映射(map situations to actions)。学习者没有被告知应该采取什么行动,而是必须通过尝试找到获得最大的回报的动作。在最有趣和最具挑战性的情况下,行动可能不仅影响眼前的收益,而且影响下一个情景,并由此影响所有后续的收益。试错搜索trial-and-error search)和延迟收益是强化学习最重要的两个特点。

    强化学习,就像许多主题以“ing”结尾的主题一样,如机器学习和登山,它即是是一个问题,也是一类解决这个问题的解决方法,还是研究这个问题及其解决方法的领域。为三件事使用一个名字是很方便的,但同时保持三个概念分离是必要的。特别是,在强化学习中,区别问题和解决方法之间是非常重要的;没有做出这种区分是许多混乱的根源。

    我们用动态系统理论的思想来具体地研究强化学习问题,具体地说,是不完全已知的马尔可夫决策过程的最大化方法(the optimal control of incompletely-known Markov decision processes。这种形式化的细节必须等到第3章,但基本思想是找到学习代理随着时间和环境交互作用下实现目标的实际问题的最重要的方面(capture the most important aspects of the real problem facing a learning agent interacting over time with its environment to achieve a goal)。学习代理( learning agent)必须能够在一定程度上感知其环境的状态,并且可以通过行动影响这些状态。代理人必须有与环境状况有关的一个目标或多个目标。马尔可夫的决策过程(Markov decision processes)倾向于只包括——感知、动作、目标——这三个部分的最简形式且不忽视任一方面。任何适合解决此类问题的方法,我们都认为是一种强化学习方法。

    强化学习不同于有监督学习。监督学习是目前机器学习领域中研究最多的一种学习方式,它从教练提供的有标记的训练集中学习。每一个例子由一个情景和系统应采取的正确行动(标签给出)组成,它通常能标识该情况所属类别。这种学习的目的是让系统推断或概括它应有的反馈机制,使它可以对未知样本作出正确回应。这是一种重要的学习方式,但它还不足以从交互中学习。在交互问题中,找到期待的既正确又典型的例子通常都是不切实际的。在一个未知的领域,若要使收益最大化,代理人必须能够从自己的经验中学习。

    强化学习也不同于机器学习者所说的无监督学习,它通常是寻找未标记数据集合中隐藏的结构。术语监督学习和无监督学习似乎可以囊括机器学习的全部模式(paradigms),但他们没有。虽然有人可能会认为强化学习是一种无监督学习,因为它不依赖于带标记样本,强化学习正试图最大化收益信号,而不是试图寻找隐藏的结构。一个代理的经验中如果能具有被发现的结构(Uncovering structure)强化学习肯定是有益的,但其本身并没有解决强化学习要最大化收益信号的问题。因此,我们认为强化学习是机器学习的第三种模式,除此之外还有监督学习和无监督学习,也许还有其他模式。

    在强化学习中出现了其他类型的学习中未出现的挑战——如何权衡(trade-off)探索与开发之间的关系。为了获得大量的收益,强化学习代理必须倾向于过去已经尝试过并且能够有效获益的行动(a reinforcement learning agent must prefer actions that it has tried in the past and found to be effective in producing reward)。但是要发现这样的行为,它必须尝试它以前没有选择的行为。代理必须充分利用它既有经验以获得收益,但它也必须探索,以便在未来做出更好的行动选择。进退两难的是,无论是专一探索还是开发,都难以避免失败(大概这个意思?)。代理人必须尝试各种各样的行动,逐步地选择那些看起来最好的行动。在一个随机任务上,每一个动作必须经过多次尝试才能得到可靠的预期收益。探索开发困境(exploration–exploitation dilemma)几十年来一直受到数学家们的深入研究,但仍未解决。现在,我们只是注意到,在监督和无监督的学习中,至少在最纯粹的形式中,完全平衡探索和开发的项目(issue)尚未出现。

    强化学习的另一个关键特征是,它明确地考虑了目标导向代理与不确定的环境相互作用的整个问题。这与许多考虑子问题而没有解决它们如何融入更大的图景的方法相反。例如,我们已经提到过很多机器学习研究关注的是有监督学习而没有明确说明这种能力最终如何有用。其他研究人员已经提出了具有一般性目标的理论,但没有考虑在实时决策中规划的作用,或规划所需的预测模型来自何处的问题。尽管这些方法产生了许多有用的结果,但它们一个重要的限制在于过于关注孤立子问题。

    强化学习采取相反的策略,它具有一个完整的、交互式的、寻求目标的代理。所有强化学习代理都有明确的目标,能够感知环境的各个方面,并可以选择影响其环境的行为。此外,通常从一开始就假定代理必须得操作,尽管它面临的环境有很大的不确定性。当强化学习涉及到规划时,它必须解决计划和实时行动选择之间的相互作用,以及如何获得环境模型和改进环境模型的问题。当强化学习涉及到有监督学习时,它要确定决定哪些能力是关键的,哪些是不重要的原因( it does so for specific reasons that determine which capabilities are critical and which are not)。为了使学习研究取得进展,必须对重要子问题进行隔离和研究,但它们应该是在完全、交互式、寻求目标的代理中有明确功能的子问题,即使不能体现所有完整的细节。

    一个完整的,交互式的,目标导向的代理,并不总是意味着像是一个完整的有机体或机器人。这里有许多明显的例子,但是一个完整的、交互式的、寻求目标的代理也可以是更大行为系统的一个组成部分。在这种情况下,代理直接与较大系统的其余部分交互,并间接与较大的系统环境交互。一个简单的例子是一个代理,监控机器人电池的充电水平,并将命令发送到机器人的控制架构。这个代理的环境是机器人的其余部分和机器人的环境。人们的眼光应超越代理及其环境最明显的例子,才能理解强化学习框架的一般性。

    强化学习最令人兴奋的方面之一是它与其他工程和科学学科的实质性和富有成效的互动。强化学习是人工智能和机器学习几十年来的一个趋势,它与统计学、最优化和其他数学学科更紧密地结合在一起。例如,某些强化学习学习参数的能力解决了运筹学与控制论中经典的“维数灾难(curse of dimensionality)”。更为明显的是,强化学习也与心理学和神经科学有着紧密的联系,两者都有巨大的益处。在机器学习的所有形式中,强化学习最接近于人类和其他动物所做的学习,而强化学习的许多核心算法最初是由生物学习系统启发的。强化学习也既通过动物学习的心理模型返回更符合经验数据的结果,并且通过一个有影响力的大脑收益系统模型反馈。本书的正文延展了强化学习涉及工程学与人工智能,和心理学与神经科学有关的概念,分别在第14章和第15章中总结。

    最后,强化学习也在某种程度上符合人工智能回归简单的一般性原则的一个大趋势。自1960年底以来,许多人工智能研究人员认为普遍性的原则是不存在的,智能是大量特殊用途的把戏,程序和启发式。人们有时会说,如果我们能在机器里找到足够多的相关事实,比如说一百万或十亿,它就会变得聪明起来。基于搜索或学习等一般原则的方法被称为“弱方法”,而基于特定知识的方法被称为“强方法”,这种观点在今天仍然很普遍,但并不占主导地位。从我们的观点来看,这是很不成熟的:我们在寻求普遍原则的努力太少以为不能简单的说没有。现代人工智能在包含大量领域知识的基础上,对学习、搜索和决策的一般原则做了更多研究。目前还不清楚事情将如何发展,但强化学习的研究无疑符合回归人工智能的简单和较少的一般原则。

    

你可能感兴趣的:(强化学习第二版)