Reinforcement Learning: An Introduction Second Edition - Chapter 7 & 12

7 n-step Bootstrapping

n-step TD methods 是MC方法和TD方法更一般的推广。

另一方面,n-step methods 解决了之前更新时刻的不灵活问题。

n-step methods 通常被用来作为 eligibility traces 的算法思想的引子,eligibility traces 能够在多个时间间隔内同时进行自举。

7.1 n-step TD Prediction

根据多个中间时刻的收益进行更新。

n 步更新:n 步收益和 n 步之后的价值函数的估计值。

n-step TD methods:n 步更新方法仍然属于时序差分方法,这里的后继状态是 n 步后的状态。

n 步回报 G t : t + n G_{t:t+n} Gt:t+n

练习 7.1:时序差分误差之和的形式: G t : t + n − V t + n − 1 ( S t ) = ∑ k = t t + n − 1 γ k − t δ k G_{t:t+n} - V_{t+n-1}(S_t) = \sum_{k=t}^{t+n-1}\gamma^{k-t}\delta_k Gt:t+nVt+n1(St)=k=tt+n1γktδk

练习 7.2:使用时序差分误差之和来替代 n 步回报的更新公式。

n 步时序差分方法是一类有坚实数学基础的方法。误差减少性质。

例 7.1:n 取中间大小的值时效果最好。

练习 7.3

7.2 n-step Sarsa

将7.1中的状态替换为“状态-动作”二元组。

练习 7.4:将 n 步 Sarsa 算法的 n 步回报写成时序差分误差之和的形式。

图 7.4:n 步方法对策略学习的加速。在一幕中学习到更多知识。

n 步期望 Sarsa:期望近似价值 V ˉ t ( s ) \bar{V}_t(s) Vˉt(s)

7.3 n-step off-policy learning

离轨策略版本的 n 步 Sarsa。

离轨策略版本的 n 步期望 Sarsa。

7.4 Per-decision Methods with Control Variates

更新过程的方差大,使得我们使用小步长参数,导致学习速度非常缓慢。

7.5 The n-step Tree Backup Algorithm

树回溯:加上两侧未被选择的动作的估计价值。根据树回溯图,所有外部轮廓的动作节点参加了回溯。

练习 7.11:假设近似动作价值不变,将树回溯的回报写成期望TD误差之和的形式。

7.6 n-step Q ( σ ) Q(\sigma) Q(σ)

n 步自举法的一个统一框架:对状态逐个决定是采取采样操作,还是使用所有可能动作的期望。

7.7 Summary

相比单步算法,多步算法通常优于单纯的TD方法和MC方法,但是需要更大的计算量和内存。资格迹:用最少的内存和最小的计算复杂度来实现多步TD方法。

两种 n 步的离轨策略方法:基于重要度采样的方法;基于树回溯的方法。

12 Eligibility Traces

资格迹是强化学习的基本机制之一。几乎所有的TD算法,都可以与资格迹结合,获得一个更加有效的一般性方法。

资格迹是时序差分方法和蒙特卡洛方法的统一。当TD方法使用资格迹来增强后,就产生了一系列的算法。蒙特卡洛方法( λ \lambda λ =1)和单步TD方法( λ \lambda λ =0)是其中的两个极端。 λ \lambda λ 取中间比取极端表现要好。资格迹也提供了一种在线实施蒙特卡洛方法的方法,并且可以在没有分幕的持续问题上使用。

资格迹 z t \mathbf{z}_t zt:一个短时记忆向量; w t \mathbf{w}_t wt:长时权重向量。当参数 w t \mathbf{w}_t wt 的一个分量参与计算并产生一个估计值时,对应的 z t \mathbf{z}_t zt 的分量会骤然升高,然后逐渐衰减。在迹归零前,如果出现了非零的TD误差,那么相应的 w t \mathbf{w}_t wt 的分量将会得到学习。迹衰减参数 λ \lambda λ 决定了迹的衰减率。

资格迹相比于 n 步算法的优势。

前向视图和后向视图。本章从现代视角介绍相关内容。

本章主要关注使用线性函数逼近的情况,此时使用资格迹的效果较好。状态聚合是线性函数逼近的特例。

12.1 The λ \lambda λ-return

n 步回报的函数逼近形式。

复合更新:用不同 n 的平均 n 步回报作为更新目标。通过平均单步与无限步的回报,可以得到一种将TD和MC结合的方式。理论上,还可以将基于经验的更新与动态规划的更新进行平均,得到一个简单的结合基于经验的更新和基于模型的更新的算法(参见第8章)。

一个复合更新只能在它的组分中最长的那个更新完成后完成(它决定了更新的延迟)。

TD( λ \lambda λ)算法可以被视为平均 n 步更新的一种特例。 λ \lambda λ-回报。当 λ \lambda λ=0 时,为单步TD更新;当 λ \lambda λ=1 时,为MC更新。

练习 12.1

练习 12.2: λ \lambda λ 确定了在更新时算法可以看多远。

The offline λ \lambda λ-return algorithm. Its overallperformance is comparable with the n-step algorithms.

目前为止,我们采用的所有算法都是前向的。

12.2 TD( λ \lambda λ)

TD( λ \lambda λ) 是强化学习中最古老、使用也最广泛的算法之一。

TD( λ \lambda λ) 通过三种方式改进了the offline λ \lambda λ-return algorithm。首先它在每一步对权重向量进行更新;其次它将计算平均分配在整个过程上;第三它也适用于持续性问题。本节将介绍 the semi-gradient version of TD( λ \lambda λ) with function approximation.

基于函数逼近,资格迹是一个和权值向量同维度的向量 z t z_t zt 。相对权值向量来说,资格迹是一个短期记忆,其持续时间通常少于一幕。资格迹的唯一作用是影响权值向量。

在 TD( λ \lambda λ) 中,资格迹向量被初始化为零,然后在每一步以 γ λ \gamma \lambda γλ 衰减,并累加价值函数的梯度。资格迹记录了权重向量的哪些成分对最近的状态估值有积极或消极的贡献,其中 “最近” 是以 γ λ \gamma \lambda γλ 定义的。当一个强化学习事件出现时,我们认为这些 “痕迹” 展示了权值向量对应分量有多少 “资格” 可以接受学习过程引起的变化。我们关注的强化学习事件是每时每刻的单步TD误差。

价值函数预测的TD误差。

在 TD( λ \lambda λ) 中,权值向量每一步的更新正比于标量TD误差和资格迹向量。

半梯度 TD( λ \lambda λ) 算法。

TD( λ \lambda λ) 在时间上往回看。

λ \lambda λ=0,TD(0); λ \lambda λ=1,TD(1) 。

TD(1) 相比MC方法的优点:在线更新,在幕中立即调整智能体的行为。

比较 TD( λ \lambda λ) 算法和 offline λ \lambda λ-return 算法。在 α \alpha α 的值比最优值大时,TD( λ \lambda λ) 变差很多,甚至可能不稳定。

如果 α \alpha α 遵循随机逼近理论的条件(式2.7),那么线性 TD( λ \lambda λ) 会在同轨策略的情况下收敛。

误差边界公式。

根据公式, λ \lambda λ=1 时上界接近最小误差。然而,实际上 λ \lambda λ=1 通常是一个最差的选择。

练习 12.3:

练习 12.4:

标题

你可能感兴趣的:(Reinforcement,Learning,人工智能,算法)