ϵ-greedy Policies

ϵ \epsilon ϵ-greedy Policies

非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上就是随机和贪心相结合。

这个策略在论文里一般一句话就可以概括: ϵ \epsilon ϵ-greedy policy that selects a random action with probability ϵ \epsilon ϵ or otherwise follows the greedy policy a = a r g m a x a Q π ( s , a ) a = \mathop{argmax}\limits_{a}Q^\pi(s,a) a=aargmaxQπ(s,a)

  • 简单的去平衡探索和利用的思想
  • ∣ A ∣ |A| A是所有可能的动作的数量
  • 那么针对state-action的价值 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a) ϵ \epsilon ϵ-greedy策略是:
    π ( a ∣ s ) = { a r g m a x a Q π ( s , a ) w i t h   p r o b a b i l i t y   1 − ϵ a w i t h   p r o b a b i l i t y   ϵ ∣ A ∣ \pi(a|s) = \begin{cases} \mathop{argmax}\limits_{a}Q^\pi(s,a) \quad with \ probability \ 1-\epsilon \\ a \qquad \qquad \qquad \qquad with \ probability \ \frac{\epsilon}{|A|} \end{cases} π(as)=aargmaxQπ(s,a)with probability 1ϵawith probability Aϵ
这是一个非常简单的策略,但好的地方在它够用了。

下面是它有效的证明。

证明 ϵ \epsilon ϵ-greedy策略能单调提升

ϵ-greedy Policies_第1张图片

Greedy in the Limit of Infinite Exploration(GLIE)

GLIE的定义

  • 所有的state-action对都是无限次的被访问即
    l i m i → ∞ N i ( s , a ) → ∞ \mathop{lim}\limits_{i\rightarrow \infty}N_i(s,a) \rightarrow \infty ilimNi(s,a)

  • 那么行为策略会收敛到贪心策略
    l i m i → ∞ π ( a ∣ s ) → a r g m a x   Q ( s , a ) w i t h p r o b a b l i t y   1 \mathop{lim}\limits_{i\rightarrow \infty} \pi(a|s) \rightarrow \mathop{argmax} \ Q(s,a) \quad with probablity \ 1 ilimπ(as)argmax Q(s,a)withprobablity 1
    即百分之百收敛到贪心策略

  • 一个简单的GLIE策略是 ϵ \epsilon ϵ-greedy,其中 ϵ \epsilon ϵ ϵ i = 1 i \epsilon_i = \frac{1}{i} ϵi=i1的比率逐渐减小到0

你可能感兴趣的:(强化学习)