【论文阅读】Error Bounds of Imitating Policies and Environments

模仿策略和环境的误差边界

摘要

文章中对行为克隆和GAIL两种模仿方法进行对比,分析了 两种方法生成的模仿策略与专家策略之间的价值差距,得出了GAIL可以减少复合误差的结论,具有更好的样本复杂性。同时发现模仿学习也可以用于学习环境模型,相比于行为克隆,GAIL可以更有效地模仿环境模型,提供了模仿学习和基于模型强化学习的新思路。

在文章阅读过程中,将注重于两种模仿方法对于策略模仿的对比,及其实验

Introduction

行为克隆(BC)通过直接最小化与监督学习的动作概率差异来学习策略;学徒学习(AL)通过反向强化学习从专家演示中推断出奖励函数,随后使用恢复的奖励函数通过强化学习学习策略。最近,Ho和Ermon[23]揭示了AL可以被视为一个状态-动作占用度量匹配问题。由此,他们提出了生成对抗性模仿学习(GAIL)算法。在GAIL中,鉴别器根据与专家演示的相似性对代理的行为进行评分,然后代理学习最大化评分,从而产生类似专家的行为。在本文中,给出了专家策略与来自BC和GAIL模拟策略之间的价值差距的误差边界,及方法的样本复杂性。结果发现,BC方法与专家策略的价值差距在二次方,而GAIL仅为线性关系。除此之外,GAIL即使提供不完整的轨迹也可以很好的模仿。

两个需理解的定义:Error bound(误差边界)value gap(价值差距)

Background

在不限制步长的MDP中,由于discount factor的存在,策略的价值主要取决于运行的长度, 1 / ( 1 − γ ) 1/(1-\gamma) 1/(1γ)揭示了折扣系数与有效长度的关系。为了便于量化,引入了:

  1. discounted stationary state distribution
    d π ( s ) = ( 1 − γ ) ∑ t = 0 ∞ γ t P r ( s t = s ; π ) d_\pi(s)=(1-\gamma)\sum^\infty_{t=0}\gamma^tPr(s_t=s;\pi) dπ(s)=(1γ)t=0γtPr(st=s;π)
  2. discounted stationary state-action distribution:
    ρ π ( s , a ) = ( 1 − γ ) ∑ t = 0 ∞ γ t P r ( s t = s , a t = a ; π ) ρ_\pi(s,a)=(1-\gamma)\sum^\infty_{t=0}\gamma^tPr(s_t=s,a_t=a;\pi) ρπ(s,a)=(1γ)t=0γtPr(st=s,at=a;π)
    这两个量都是用于衡量状态(状态-动作对)出现的频率

Bounds on Imitating Policies

Imitating Policies with BC

行为克隆的学习方式与监督学习很类似。BC最小化了专家的行动分布和模仿策略的行动分布之间的Kullback–Leibler(KL)差异的行动概率差异。它也可以被视为监督学习中的最大似然估计。在行为克隆中将状态作为数据,对应的动作作为标签。行为克隆一个最大的问题就是会出现复合误差,因为模仿的策略即使出现很小的训练错误,这会导致访问到专家演示之外的状态,从而生成更大的决策失误,并一步步向不可见的状态过渡。因此策略的value gap随着轨迹step的增加而不断累积。
Theorem 1:由于BC的定义,可以满足专家策略与模仿策略满足 E s − d π E [ D K L ( π E ( ⋅ ∣ s ) , π 1 ( ⋅ ∣ s ) ) ] ≤ ϵ E_{s-d_{\pi_E}}[D_{KL}(\pi_E(·|s),\pi_1(·|s))] \leq \epsilon EsdπE[DKL(πE(s),π1(s))]ϵ,从而得到 V π E − V π 1 ≤ 2 2 R m a x ( 1 − γ ) 2 ϵ V_{\pi_E} - V_{\pi_1} \leq \frac{2\sqrt{2}R_{max}}{(1-\gamma)^2}\sqrt{\epsilon} VπEVπ1(1γ)222 Rmaxϵ
得到BC模仿策略与专家策略的价值差距是discount factor的二次方

Experiments

实验对比了两种性能

不同算法在有效规划范围下的模仿效果

实验将折扣因子与有效规划范围化为正比例,及当折扣因子增大时,有效规划范围就变大(有效规划范围我的理解是智能体可行动范围,也可以理解为限制智能体所能走的最大步数),需要注意的是随着有效规划范围的增加,专家策略的性能也会变好。

实验对比了不同模仿学习算法,在不同discount factor影响下的模仿效果,将 V π V π E \frac{V_\pi}{V_{\pi_E}} VπEVπ这种描述相对性能的度量,作为衡量标准,在Mujoco的三种场景下进行比较。
实验结果表明,BC的模仿效果随着有效规划范围的增加,模仿效果逐渐变差,相比于BC,GAIL的模仿效果则更好一些。但当提供足够多的专家数据时,BC的训练误差和泛化误差非常小,这时折扣因子的影响就很小了,BC也就更具竞争力。

GAIL的泛化能力

文中发现判别器使用的神经网络在 MuJoCo 任务上经常被过度参数化,并且发现谨慎使用梯度惩罚技术可以控制模型的复杂性以获得更好的泛化结果。实验将鉴别器偏好设置为 1-Lipschitz 连续函数。这个损失函数乘以系数 λ 并添加到原始目标函数。
实验发现,适合的梯度惩罚(如λ=0.1orλ=1)的效果比更大或者更小的惩罚学习到的效果更好,除此之外,GAIL的模仿效果也随着采样量的增加而变好。

你可能感兴趣的:(论文阅读,人工智能)