强化学习之PILCO (一):引入

Introduction

  • 说明
    • 1.强化学习(RL)
    • 2.强化学习的问题
    • 3.PILCO概览

说明

这一系列博客是根据PILCO算法(Probabilistic inference for learning control)的提出者Marc Peter Deisenroth 的书做的笔记和摘要,欢迎交流,有错误请指出。

主要参考书籍和论文,:

Books:
Deisenroth, Marc. (2010). Efficient Reinforcement Learning using Gaussian Processes.
Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT Press, 2006.(想深入了解高斯过程在机器学习的应用可参考)

Papers:
Deisenroth M, Rasmussen C E. PILCO: A model-based and data-efficient approach to policy search[C]//Proceedings of the 28th International Conference on machine learning (ICML-11). 2011: 465-472.
M. P. Deisenroth, D. Fox and C. E. Rasmussen, “Gaussian Processes for Data-Efficient Learning in Robotics and Control,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 2, pp. 408-423, Feb. 2015.

1.强化学习(RL)

 此处简要提一下强化学习概念,具体的学习可以参考Sutton的书籍Reinforcement Learning: An Introduction 或者David Silver的课程视频。强化学习(Reinforcement Learning)作为机器学习的一个分支,是智能体(agent)从与环境交互产生的数据进行学习并基于奖励函数(reward)来提升其行动策略(policy)的一种方法。

图1. 典型的强化学习示意图

  强化学习与最优控制相似,RL中的环境可以比作最优控制中的动态系统,agent的决策过程算法可以看作控制器,agent的行动看作控制信号。然而,在最优控制中通常不会处理动态参数的确定问题,因此找到控制策略可以看作一个最优化问题。然而,RL中通常的观点是不需要先验知识,环境的模型是未知的,因此依赖于agent与环境的交互。RL需要在exploration & exploitation寻找平衡,通常需要大量的交互才能得到一个好的策略。

2.强化学习的问题

  RL的一个主要问题是低的学习效率。一个提升效率的方式是提取更多有用的信息。例如,一个关于环境的模型能够用来确定agent执行某一行动后的观测值,通常环境模型通常用转移函数(transition function)来表示。转移函数是状态-行动到下一个状态的映射。然而,在采样较少的时候,有很多转移函数可以满足条件,例如我们可以选择最可能的函数来表示环境,但是这只是基于当前的较少的数据。当我们用这个函数来学习好的策略,我们的假设是基于这个函数能够准确地描述环境,这包括了很多未被探索到的环境,因此这是不准确的,存在较大的模型偏差(model bias)。如果我们用多个可能的转移函数,给它们排优先级,然后用基于加权平均的这些函数来学习策略,会有更高的准确率。
高斯过程(GPs)通过定义一个关于这些函数的概率分布提供了一个可以根据函数的可能性来对函数进行优先级排名的概率框架。也就是说,我们可以根据高斯分布,通过贝叶斯平均将所有可能的函数纳入决策过程。这样子,GPs降低了model bias,尤其是在使用确定性模型的情况下。

3.PILCO概览

  PILCO通过实施关于环境的先验假设和对采集到的数据建模来解决连续动作空间的RL问题。通常来说有三个步骤:

1). 动态模型学习(Dynamics Model Learning)
  通过无参数的高斯过程(GPs)来表示环境的模型,这个模型同时表示出了model bias
2).策略评估(Policy Evaluation)
 基于学习到的动态模型,将model bias纳入策略评估中,通过确定性近似推理来评估RL中的期望回报
3).基于解析梯度的策略提升(Analytic Gradients for Policy Improvement)
 通过可解析的策略梯度来进行策略搜索,更新提升策略

你可能感兴趣的:(RL学习笔记)