强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍

因为课题转到深度强化学习方面,因此开始研究强化学习的内容,同时在读这方面的书,并将Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G.Barto)第二版作为主要的学习资料,因为英语读起来不仅速度慢,而且理解的也没那么深入,所以为了记录学到的知识,并加深理解,同时也抱着分享的态度,开始写此系列的博客。

首先从第一章开始,第一章主要是对强化学习做了一个概述。下面只记录了其中的一部分,包括概念、要素等。

概念

强化学习(Reinforcement Learning, RL)和其他类型的学习(机器学习、深度学习)类似包括待研究的问题以及解决这些问题的方法,还有研究这些问题和方法的领域。具体的来说,强化学习的问题对象是一类如何根据环境做出行动从而进行最大化奖励的问题。这类问题有三个特征:

  1. 闭环性(closed-loop):学习系统产生的行为(action)会影响到后续的输出;
  2. 无监督(no direct instructions):学习对象不会得知哪一种行为更好,哪一种行为更差,它只能通过学习去得这这些信息,注意在这里无监督的意思是学习对象得不到直接的指导;
  3. 延时性:行动产生的结果,包括奖励(reward),需要很多个时间周期才能显现出来。

强化学习与监督学习和无监督学习都有区别,首先,监督学习的输入是带有标签的数据,这类学习的目标是提高泛化能力,而强化学习是从agent自身与环境的交互中进行学习。其次,无监督学习的目标是为了找出无标签数据中隐藏的结构,而强化学习的目标是最大化与环境交互所得的奖励。因此强化学习可以说是除了监督学习与无监督学习之外的第三种范式。
强化学习面临的挑战之一是探索-利用困境(exploit and explore)。

要素

除了agent和环境之外,强化学习的要素还包括策略(Policy)奖励(reward signal)值函数(value function)环境模型(model),下面对这几种要素进行说明:

  1. 策略(Policy),策略就是一个从当环境状态到行为的映射;
  2. 奖励(reward signal),奖励是agent执行一次行为获得的反馈,强化学习系统的目标是最大化累积的奖励,在不同状态下执行同一个行为可能会得到不同的奖励;
  3. 值函数(value function),一种状态的value为从当前状态出发到停机状态所获得的累积的奖励;
  4. 环境模型(model),agent能够根据环境模型预测环境的行为,采用环境模型的强化学习方法称为基于模型(model-based)的方法,不采用环境模型的强化学习方法称为model-free方法。

强化学习因其注重agent在与环境的直接交互中进行学习而有别于其他学习方式。

你可能感兴趣的:(强化学习)