强化学习第九章总结,总结到9.3

这一章采取函数近似的方法,前面有提到过,状态太多的时候会考虑把策略(存疑求证,记忆里这里应该是策略,但这章提的是v函数)函数pi表示成状态的函数,只要函数的参数比状态数要少,就能起到节省空间的作用。

 

简单写作 v_pi(s, w) = v_pi(s)

 

 

这里的v可以是一个关于特征的线性方程,w是特征的权重,更普遍地说,v可能是一个多层神经网络而w是每一层的权重。通过调整权重。我们可以近似一个很大范围内的的函数。这里的v也可以是一个决策树,而w是是分裂点和叶子值。一般来说,参数的数量会远远低于状态的数量,同时改变一个参数能够影响到很多很多状态的预测值。反过来说就是,我们一旦更新一个状态,这一步结果会泛化到很多状态上去。这使得这一学习既强大又难以掌控。

总结一下就是两点,

  1. 节省空间,
  2. 第二点借助拟合器的泛化性。

这里我们可以联想到之前dyna算法中,用模型拟合奖励的策略,也许也能够凭借模型的泛化能力带来一些改进。(待考证)

 

基于函数近似的方法同样适用于 POP (部分观测问题),比如训出来的分类器有时候会用不上某几个(状态的feature)。这就好像这些方面是不可见的。这一章讨论的方法完全适用于部分可观测的情况。缺点是无法根据部分观测记忆对状态表达进行扩充。?????可以去看17.3.

 

9.1 Value-function Approximation

本书中所有的预测任务都可以视为是将一个函数在某几个特定的状态上的预测值往一个回溯值拉。

这个总结还挺好。

 

强化学习第九章总结,总结到9.3_第1张图片

可能需要去看一下online learning 和 stationary target function 之类的知识,一般的function learning 都假定测试集是不改变的,是不是说在线学习 目标函数 是能在训练中不断改变的。

 

9.2  The Prediction Objective (VE)

 

这里给value function approximation 设置了一个目标,如上图所示,

u(s)是状态s在平稳分布下的概率。

然后关于VE

  1. 我们不知道VE是不是一个合理的目标,是否最小化VE等同于最优化V函数
  2. 我们不知道有没有更好的替代上面这个的优化目标,我们先用VE吧

接着

 1.不知道VE(w)是否能通过改变w获得全局最优,一些简单的函数比如线性函数能做到全局最优,但是复杂的函数如神经网络和决策树做不到

2.对于复杂的函数只能找一个局部最优,一些方法运气不好甚至会发散

 

章节的最后两节会讲一些实践上的事情,这一章剩下的部分专注于基于线性梯度的方法,我感觉就是一阶梯度。专注于线性方法是因为,有理论价值,同时这些方法很简单,我们的空间是有限的。

 

然后我们怎么做更新呢

强化学习第九章总结,总结到9.3_第2张图片

 

就是这个式子,加个1/2 抵消那个2次的影响。

然后我们并不知道v的真实值,所以选择使用U_t,U_t是v_t的一个带噪音版本,这里的alpha 需要满足平方和有限,一次和无限的性质。

 

如果U_t是无偏的,这个算法就必然能收敛到一个局部最优,比如蒙特卡洛方法。

 

如果的U_t是用bootstrapping方法估计出来的,也就是有偏的方法比如DP目标或者n步return方法。因为在9.4中前一项和后一项的值都是和w关联的。

 

之后可以注意一下这篇论文,这些方法被称为半梯度方法。

 

尽管半梯度方法不会很鲁棒地收敛,但是在某些情况下会很可靠地收敛,比如下一节会讨论的线性情况下。同时半线性方法还有一些优点比如

  • 收敛速度块
  • 支持持续性地学习

强化学习第九章总结,总结到9.3_第3张图片

半监督学习地TD(0)算法如下。

 

之后突然提了一下状态聚合,不知道在这个章节中状态聚合有什么用。

 

9.4 Linear Methods

 

 

 

 

你可能感兴趣的:(强化学习)