EnforceLearning-被动强化学习

         直接抄书.....

        

        reinforcement learning-RL又称为评价学习,在传统ML领域不存在此种概念,接近于弱监督学习。在连接主义学习中,ML划分为监督学习、非监督学习、强化学习RL。

         本章主要讲Agent如何从成功与失败中、回报与惩罚中进行学习。

         reinforcement learning的任务是利用观察到的回报来学习针对每个环境的最优或者接近最优策略。在此,Agent没有完整的环境模型或者回报函数 两者的先验知识。RL囊括了人工智能的全部,一个Agent被置于一个环境中,并学会在其间游刃有余。

        强化学习,致使Agent面临一个未知的马尔科夫过程。


被动强化学习:

         在完全可观察环境的状态下使用基于状态表示的被动学习。在被动学习中,Agent的策略是Pi是固定的:在状态s中,它总是执行行动Pi(s)。

         其目标只是简单的学习:该策略有多好,即是学习效用函数U(s).

         被动学习的任务类似于 策略评价 任务。

   

1、直接效用估计

         由widrow和hoff在1950s末末期在自适应控制理论里面提出的 直接效用估计。思想为:认为一个状态的效用是从该状态开始往后的期望总回报,二每次实验对于每个被访问状态提供了该值的一个样本。

    

         直接效用估计使RL成为监督学习的一个实例,其中每一个学习都以状态为输入,以观察得到的未来回报为输出。此时,RL已经被简化为 标准归纳学习问题。


2、自适用动态规划

        直接效用估计DUE.(direct utility estimatation )将RL简化为归纳学习问题(决策树?),基于它忽略了一个重要的信息来源:状态的效用并非相互独立的。每个状态的回报等于它自己的回报加上其后记状态的期望效用,即是,效用值服从固定策略的贝尔曼方程:

            

                                                                  动态规划方程


        忽略了状态之间的联系,直接效用估计错失了学习的机会。并且,直接效用估计可视为在比实际大得多的假设空间中搜索U,其中包括了违反Berman方程组的函数,因此DUE.算法收敛的非常慢。

        自适应动态规划ADP.(Adaptive Dynamic program),Agent通过学习连接状态的转移模型,并使用动态规划方法来求解Markov过程,来利用状态效用之间的约束

       

3、时序差分学习

          时序差分学习TD.(Timporal-difference)

         求解前一节内在的MDP并不是让Berman方程来承担学习问题的唯一方法。另外一种方法是:使用观察到的转移来调整观察到的状态的效用,使得它满足约束方程。

         ................................

         ADP方法和TD方法实际上是紧密相关的。二者都试图对效用估计进行局部调整,以使每一状态都与其后继状态相“一致”。一个差异在于 TD调整一个状态使其与所有已观察的后继状态相一致,而ADP则调整该状态使其与所有可能出现的后继状态相一致,根据概率进行加权。.......

       ..................

       演化出的近似ADP算法可以提高几个数量级的运算速度,然后......

   

你可能感兴趣的:(EnforceLearning-被动强化学习)