为什么强化学习的探索策略是随机选择动作?

  其实并不是说强化学习只有随机选择策略,而是一种解决办法而已。用来平衡探索和利用(trade off exploration and exploitation),这类问题是多臂老虎机中要解决的经典问题。

  目前主流的算法有:

  • Greedy strategy

  贪婪策略(greedy strategy),就是选择当前平均奖励最高的那个arm,但是这种贪婪策略就没有考虑探索,比如有两个arm,当选择了其中一个arm-1这次得到奖励1,而另一个arm-2奖励为0,之后依据贪婪策略就一直选择arm-1,但arm-1实际的奖励为1的概率为0.1arm-2奖励为1的概率0.9低呢?只不过刚好第一次被选中了而已,就很容易丢失掉探索,导致得到一个次优解。

  • -greedy

  而-greedy方式说的是以一个概率随机选择arm,而概率选择greedy策略,也就是选择当前平均奖励最高的那个arm。由此可以看出收敛率(多快找到最优的arm)会取决于。一旦找到最优的arm,之后就一直选择这个arm就可以了。

  对于这两种算法:

  • 如果 是个常量,time step足够大的话,(近似随机选择的arm都会后悔regret),此时的期望累计遗憾值 (这里只需要其是线性的就可以)。
  • 如果 ,也就是随着time step增加,逐渐收敛。time step足够大的话,,也就是说随着time step的增加,次优解会逐渐减少,此时的期望累计遗憾值 (这里只需要其是对数级的就可以)。

  当然还有基于UCB和贝叶斯的方法,展开来说就太多了,可以参考我以前的文章:求通俗解释下bandit老虎机是个什么东西?,有详细分析。

你可能感兴趣的:(为什么强化学习的探索策略是随机选择动作?)