元强化学习(1):Meta-learning in Reinforcement Learning

强化学习在展现其强大学习能力的同时也深受其自身特性的困扰:系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此,近年来,元强化学习渐渐回归视线,即将基础强化学习方法中手动设定的超参数设定为元参数,通过元学习方法学习和调整元参数,进一步指导底层的强化学习过程。

打算最近介绍一个系列,今天先来说说这篇2003年的Meta-learning in Reinforcement Learning,虽然当时RL还没有和DL相结合,但是文章中的很多想法都很有预见性,同时与生物特性的联系讨论也很有启发性。

RL中的元参数

  • 学习率 α \alpha α: α \alpha α 控制训练速度,过小导致学习缓慢,过大则导致学习过程振荡。
  • 逆温度系数 β \beta β: 在依概率随机选取动作的设定下,往往采用 p ( a ∣ s ) = e β Q ( s , a ) ∑ a ′ e β Q ( s , a ′ ) p(a|s) = \frac{e^{\beta Q(s,a)}}{\sum_{a'}e^{\beta Q(s,a')}} p(as)=aeβQ(s,a)eβQ(s,a)其中 Q Q Q 为状态-动作值函数。此时逆温度系数 β \beta β 控制着探索-利用之间的权衡。理想情况下, β \beta β 在学习的初始阶段应该较小,因为此时智能代理还不能将动作很好地映射到其长期汇报,应该鼓励更多的探索;并且随着代理获得越来越大的奖励而逐渐增大。
  • 折扣因子 γ \gamma γ: γ \gamma γ 指示代理应该将未来多远的奖励纳入考虑范围。如果 γ \gamma γ 较小,则代理只考虑短期收益,如果 γ = 1 \gamma=1 γ=1 则意味着代理要将未来长期所有的收益都纳入考虑。但在实际中有几个原因阻碍了这一点:其一,任何代理都有有限的寿命,无论是人工的还是生物的,一个有折扣的价值函数 = 一个无折扣的价值函数 + 一个有固定死亡率 1 − γ 1-\gamma 1γ 的代理。其二,代理所能接受的奖励延迟是有限度的,如动物必须在饿死之前找到食物。其三,如果环境转移动态是随机不平稳的,那么长期预测注定不可靠。其四,学习价值函数的复杂度 ∝ 1 / ( 1 − γ ) \propto 1/(1-\gamma) 1/(1γ).

元参数学习算法

算法参考了随机实值单元(SRV)的思想。SRV 单元的输出为其输入的加权和再加上一个小的扰动,以提供必要的探索能力。以元参数 γ \gamma γ 为例: γ ( t ) = 1 − 1 e γ b ( t ) \gamma(t)=1-\frac{1}{e^{\gamma_b(t)}} γ(t)=1eγb(t)1其中 γ b ( t ) = γ b 0 + σ γ ( t ) \gamma_b(t)=\gamma_{b_0}+\sigma_{\gamma}(t) γb(t)=γb0+σγ(t) γ b 0 ( t ) \gamma_{b_0}(t) γb0(t) 是平均项, σ γ ( t ) ∼ N ( 0 , v ) \sigma_{\gamma}(t) \sim N(0,v) σγ(t)N(0,v) 是噪声项,每 n n n 个时间步重新采样一次, n ≫ 1 n\gg1 n1.

为了更新 γ b 0 ( t ) \gamma_{b_0}(t) γb0(t),需要计算短期平均奖励和长期平均奖励之间的差异,这个差异和扰动之间的相关性给出了元学习方程: Δ γ b 0 ( t ) = μ ( r ˉ ( t ) − r ˉ ˉ ( t ) ) σ γ ( t ) \Delta\gamma_{b_0}(t)=\mu\left(\bar{r}(t)-\bar{\bar{r}}(t)\right)\sigma_{\gamma}(t) Δγb0(t)=μ(rˉ(t)rˉˉ(t))σγ(t)其中 μ \mu μ 是元学习率, r ˉ ( t ) \bar{r}(t) rˉ(t) r ˉ ˉ ( t ) \bar{\bar{r}}(t) rˉˉ(t)分别为短期和长期的平均奖励。其更新方式为: Δ r ˉ ( t ) = 1 τ 1 ( − r ˉ ( t ) + r ( t ) ) \Delta\bar{r}(t)=\frac{1}{\tau_1}(-\bar{r}(t)+r(t)) Δrˉ(t)=τ11(rˉ(t)+r(t)) Δ r ˉ ˉ ( t ) = 1 τ 2 ( − r ˉ ˉ ( t ) + r ˉ ( t ) ) \Delta\bar{\bar{r}}(t)=\frac{1}{\tau_2}(-\bar{\bar{r}}(t)+\bar{r}(t)) Δrˉˉ(t)=τ21(rˉˉ(t)+rˉ(t))其中 τ 1 \tau_1 τ1 τ 2 \tau_2 τ2 为时间常数。

如果扰动导致的奖励高于长期平均水平,元参数就朝着扰动发生的方向更新。其他元参数 α \alpha α β \beta β 的更新方式都类似,并且与基础强化学习算法无关。

实验

实验包含两部分:

有效性

第一部分主要说明其有效性:简单、鲁棒、通用,能找到接近最优的元参数。元强化学习(1):Meta-learning in Reinforcement Learning_第1张图片

自适应性

第二部分说明算法的动态、自适应能力。在时间步 2w 处,环境奖励的规模发生剧烈改变,推理的难度提升,原有的短视的参数无法为长期延迟的巨额奖励做出必要的牺牲,表现急剧下滑,而后通过自身的自适应能力重新学得适应新环境的元参数。元强化学习(1):Meta-learning in Reinforcement Learning_第2张图片

讨论

由于该算法的计算和存储需求都很小,且不依赖于底层强化学习方法,因此可用于描述计算神经科学中的生物元学习。具体来说,是设定元参数的神经调质理论。可以猜想,血清素控制 γ \gamma γ,去甲肾上腺素控制 β \beta β,乙酰胆碱控制 α \alpha α. 并且:
元强化学习(1):Meta-learning in Reinforcement Learning_第3张图片

  1. 神经调质神经元具有自发性波动,对算法中的扰动项相对应,由生物本身的活动水平控制。
  2. 多巴胺的阶段性发射带有短期奖励,而多巴胺的强直性发射带有长期的对手信号(Daw et al, 2002)。如果我们认为长期的对手过程与长期的奖励过程完全相反,那么多巴胺神经元可以携带执行短期和长期奖励平均值相减的信号。
  3. 神经调质神经元具有多巴胺依赖可塑性。可以猜想,阶段性多巴胺信号是强化学习所需的奖励,而完整的多巴胺信号则是强化学习的元学习的奖励。

你可能感兴趣的:(算法基础)