Reinforcement Learning: An Introduction Second Edition - Chapter 8

8 Planning and Learning with Tabular Methods

从统一视角来考虑一系列强化学习方法。

Model-based RL methods: dynamic programming, heuristic search, …
Model-free RL methods: Monte Carlo, temporal-difference, …

Model-based methods rely on planning as their primary component, while model-free methods primarily rely on learning.

两种方法的联系:the computation of value functions; 回溯(back-up)更新。本章的目标是将两种方法整合起来。

8.1 Models and Planning

A model of the environment: anything that an agent can use to predict how the environment will respond to its actions. 给定状态和收益,模型会产生对后继状态和收益的一个预测。如果模型是随机的,可以分为分布模型和样本模型。分布模型更加强大,因为它们可以生成样本模型。然而很多时候获得样本模型比获得分布模型容易得多。

模型可以用来模拟(或称仿真)经验。在两种模型的情况下,我们都说模型是用来模拟环境和产生模拟经验的。注:蒙特卡洛可以使用样本模型学习(模拟经验),也可以从生成的样本中学习(真实经验)。

规划一词在几个不同领域有不同的使用方式。这里它代表:any computational process that takes a model as input and produces or improves a policy for interacting with the modeled environment. 根据我们的定义,AI中有两种不同的规划方法:状态空间规划(state-space planning, 本书讨论)和方案空间规划(plan-space planning, 进化算法和“偏序规划”)。

本章提出了一个统一视角,一个状态空间规划算法的通用结构,这个结构也存在于本书介绍的学习方法中。两个基本思想:价值函数和经验回溯。各个状态空间规划方法只是在更新的方式、更新的顺序以及保留回溯信息的时长上有区别。

规划方法和学习方法的核心都是通过回溯更新来估计价值函数。不同之处在于,规划使用由模型产生的模拟经验,学习方法使用由环境产生的真实经验。但是通用结构意味着许多思想和算法可以在规划和学习之间迁移。很多时候,学习算法可以代替规划方法的关键回溯(更新)步骤。将学习算法应用在模拟经验中。例子:random-sample one-step tabular Q-planning. 注:使用采样模型进行迭代计算。

除了规划和学习方法的统一视角,本章还讨论了采用较小的、增量的步长的好处。

8.2 Dyna: Integrated Planning, Acting, and Learning

待更新。

8.9 Heuristic Search

待更新。

8.13 Summary of Part I: Dimensions

横跨不同方法的一组逻辑连贯的思想。方法空间的不同维度。

三个重要的通用思想:估计价值函数;根据状态轨迹回溯更新;遵循GPI。这三个原理可以推广到人工智能以及自然智能。

方法变种的两个最重要维度:更新的深度和宽度。

本书的第三个维度:同轨策略和离轨策略的维度。与前两个维度平面垂直。

一些其他的维度。注:状态价值函数需要模型,或使用A-C等方法。

最重要的一个维度:函数逼近。

Bibliographical and Historical Remarks

待更新。

你可能感兴趣的:(Reinforcement,Learning,算法,人工智能)