2021 重启强化学习(4) 多摇臂老虎机

2021 重启强化学习(4) 多摇臂老虎机_第1张图片
020.jpg

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和使用头像一致。

我们继续来讨论多摇臂老虎机问题一些策略

Thompson sampling 算法

在 thompson sampling 算法中,假设每一个摇臂机给出收益都是服从一个概率分布,我们通过试探来学习出摇臂老虎机的背后的概率。怎么能估计怎么能估计概率 p 的概率分布呢? 答案是假设概率 p 的概率分布符合 beta(wins, lose)分布,有两个参数: wins, lose。每个臂都维护一个 beta 分布的参数。每次试验后,选中一个臂,摇一下,有收益则该臂的 wins 增加 1,否则该臂的 lose 增加 1。每次选择臂的方式是:用每个臂现有的 beta 分布产生一个随机数 b,选择所有臂产生的随机数中最大的那个臂去摇。

平稳与非平稳问题

平稳问题
  • 是稳定的,不随时间而变化
  • 随着观测样本的增加,平均估计方法最终收敛于
非平稳问题
  • 是关于时间的函数
  • 对 的估计需要更关注最近的观测样本

因为不平稳

\begin{aligned} Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]\\ =\alpha R_n + (1-\alpha)Q_n\\ =\alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1 - \alpha)Q_{n-1}]\\ =\alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)(1 - \alpha)Q_{n-1}\\ = \alpha R_n + (1-\alpha) \alpha R_{n-1} + (1- \alpha)^2 \alpha R_{n-2} + \cdots + (1-\alpha)^{n-1} \alpha R_1 + (1 - \alpha) Q_1\\ = (1-\alpha)^nQ_1 +\sum_{i=1}^n \alpha(1-\alpha)^{n-i} R_i \end{aligned}

这样做的好处就是让更新更关注最近的效果,

更新步长的选择

并不是所有的步长选择 都保证收敛

  • 收敛
  • 不收敛
收敛条件

  • 第一个条件保证步长足够大,克服初值或随机扰动的影响,收敛与初始值无关
  • 第二个条件保证步长最终会越来越小,小到保证收敛,表示收敛会越来越小

行为选择策略

  • 如何制定合适的行为选择策略
    • 贪心策略: 选择当前估值最好的行为
    • 贪心策略: 以一定的概率随机选择非贪心行为(non-greedy actions),但是对于非贪心行为不加区分
  • 行为选择策略
    • 平衡利用(Exploitation)和探索(Exploration),应对行为估值的不确定性
    • 关键: 确定每一个行为被选择的概率

你可能感兴趣的:(2021 重启强化学习(4) 多摇臂老虎机)