Policy Gradient

介绍

传统的RL由于部分信息不可见、连续状态空间和高维动作空间,导致在机器人、电机领域实用性差、无法保证收敛,而若使用部分可见的马尔科夫模型建模,则计算成本过高。

PG可以处理连续和离散的动作空间,在不确定的状态空间下依然可以输出最优解(至少能输出局部最优)。Policy的自定义可以结合具体的领域知识从而具有能强的泛化能力。PG可用于model-free或model-based。

缺点是容易陷入局部最优,根据重要性来采样只能稍微减轻该问题,且由于需要快速迭代以避免学习器的偏置,导致数据的利用率较低。PG也要求使用者对具体使用领域有非常深的知识。

由于这些特性,PG通常用于机器人的应用如多足机器人的移动。

算法

由于MD不太支持MathML语法,所以大白话说了。
记:

  • 状态:s - 下一个s的分布由当前的(s,a)决定
  • 动作:a - 服从π的概率分布
  • 当前奖励:r - 由当前的s和a决定,记作r(s,a)
  • 策略:π - 是一个由s决定的各个a的概率分布模型,通常形式为π(a|s)
  • 轨迹:t - 从0到最终所有的(s,a)的序列
  • 未来折扣率:γ - 即下次得到的奖励折算到现在的价值时需要乘以γ
  • 当前步数:k
  • 期望奖励(目标函数):J=Σγ^k·r,k从0到结束
  • 估计器参数:θ
  • 学习率:α(k) - 需满足Σα>0且Σα²=const,才能保证至少收敛到局部最优
  • 截断点:提前结束的点,因为未来的奖励再也无关紧要

梯度下降法即通过J对θ的导数×学习率,来一次次更新θ,其中更新次数通常远小于步数(即走若干步后再更新)。

此方法的主要问题是如何获得好的估计器。在机器人和控制论中,通常使用deterministic model-based方法来获得梯度。

评估

主要用于评估在给定样本数n下,算法能将误差压缩到n的何种级数下。包含有限差分法、相似性比例法、自然梯度策略等。

你可能感兴趣的:(Policy Gradient)