强化学习笔记一 N-armed bandit Problem

本篇笔记是RL学习的入门,介绍N-armed Bandit问题和解决算法。

N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机,在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。

先定义估计值 Q t ( a ) = ( R 1 + R 2 + . . . + R K a ) / K a {Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a} Qt(a)=(R1+R2+...+RKa)/Ka,即为在t步中选择a获得收益的均值。

解决方法分为两类,exploitation和exploration方法。

Exploitation
Greedy方法就是每次取估计值最大的选择,好处是简单,坏处是由于估计值与真实值不相等,所以往往选择的是次优的选择,而且greedy方法没有跳出机制,即会一直困在当前次优选择上,无法选择到最优值。

Exploration
我们将greedy结合一个跳出的机制,即为 ϵ − g r e e d y \epsilon-greedy ϵgreedy方法,每次以 1 − ϵ 1-\epsilon 1ϵ的概率取估计值最大的选择,以 ϵ \epsilon ϵ的概率随机取一个选择。当时间足够长的时候,这种方法表现会比greedy要好。 ϵ \epsilon ϵ较大时收敛较快,但收敛的值会稍小于optimal value,较小时收敛较慢,但收敛的值会更趋近于optimal value。

另一种结合Exploitation和Exploration的是softmax方法。在t步选择a的概率为
e Q t ( a ) / τ ∑ i = 1 n e Q t ( i ) / τ \frac{e^{Q_t(a)/\tau}}{\sum_{i=1}^n e^{Q_t(i)/\tau}} i=1neQt(i)/τeQt(a)/τ
τ {\tau} τ趋近1时,softmax变为随机等概率选择;当 τ {\tau} τ趋近0时,softmax变为greedy选择。

证明 τ {\tau} τ趋近0时,softmax变为greedy选择:
强化学习笔记一 N-armed bandit Problem_第1张图片

softmax和 ϵ − g r e e d y \epsilon-greedy ϵgreedy好坏取决于具体情况。

其他还有很多种方法,例如UCB等等,具体不详细介绍了。

你可能感兴趣的:(强化学习)