《强化学习导论》:On-policy Prediction with Approximation

这一章讨论on-policy下的价值函数近似

均方价值误差

u(s)是状态的分布函数,定义如下

《强化学习导论》:On-policy Prediction with Approximation_第1张图片

如何使误差变小?梯度下降

《强化学习导论》:On-policy Prediction with Approximation_第2张图片

如果我们不知道Gt,所以就有Semi-gradient TD(0),可以看出这是个自举的算法

《强化学习导论》:On-policy Prediction with Approximation_第3张图片

对于线性模型

可以得到 Linear TD(0)的收敛点

《强化学习导论》:On-policy Prediction with Approximation_第4张图片

同时可以证明在收敛点其误差满足

效果测试

《强化学习导论》:On-policy Prediction with Approximation_第5张图片

同理可以扩展为n-step

《强化学习导论》:On-policy Prediction with Approximation_第6张图片

线性模型可以通过多种方法构造复杂特征

第一种是基于多项式

《强化学习导论》:On-policy Prediction with Approximation_第7张图片

第二种是基于傅里叶变换的,傅里叶变换把函数分解为多个不同频率的sin、cos函数,这里可以把特征向量分解为多个不同频率的cos函数

《强化学习导论》:On-policy Prediction with Approximation_第8张图片

其中ci向量的含义如下,0表示在该维度特征为常量

《强化学习导论》:On-policy Prediction with Approximation_第9张图片

同时每个特征x的学习速率计算方法如下

效果测试

《强化学习导论》:On-policy Prediction with Approximation_第10张图片

第三种方式是稀疏编码,考虑一个连续二维空间、线性函数
d在哪个圈里面代表该圈对应的w为1

《强化学习导论》:On-policy Prediction with Approximation_第11张图片

圈越大泛化能力越强,同理圈的形状也会影响泛化

《强化学习导论》:On-policy Prediction with Approximation_第12张图片

Tile Coding 是一种多维度的稀疏编码方式
编码方式如图所示

《强化学习导论》:On-policy Prediction with Approximation_第13张图片

Tile Coding的测试

《强化学习导论》:On-policy Prediction with Approximation_第14张图片

因为是二进制编码的,这种方法的计算效率很高
offset的选取方式会对泛化效果产生影响

《强化学习导论》:On-policy Prediction with Approximation_第15张图片

同时形状也不是确定的,会对泛化能力造成影响

《强化学习导论》:On-policy Prediction with Approximation_第16张图片

RBF也是一种特征处理方法
用径向基函数映射特征到高维空间

下面讨论非线性的函数近似

人工神经网络

《强化学习导论》:On-policy Prediction with Approximation_第17张图片

深度卷积神经网络

《强化学习导论》:On-policy Prediction with Approximation_第18张图片

训练深层神经网络常用的算法是反向传播算法

Least-Squares TD

在线性TD(0)中,收敛点为

我们可以不通过迭代来求出收敛参数,因此不用浪费训练样本

但是计算的复杂度很高,可以通过一些公式来优化

《强化学习导论》:On-policy Prediction with Approximation_第19张图片

Memory-based Function Approximation

基于记忆的函数近似在内存中保存一部分样本,然后预测的时候直接查找距离最近的样本,类似于KNN

Kernel-based Function Approximation

k(s, s') is the weight given to data about s′ in its influence on answering queries about s.

第一种核回归类似于Memory-based Function Approximation

《强化学习导论》:On-policy Prediction with Approximation_第20张图片

其中的核函数可以使用RBF

也可以用特征向量的内积

如果考虑对状态的兴趣,可以得到一个n-step的更新方法

你可能感兴趣的:(《强化学习导论》:On-policy Prediction with Approximation)