Reinforcement Learning - Chapter 2


强烈推荐结合《Reinforcement Learning:An Introduction》Second edition阅读!!!


Multi-armed Bandits

2.1 A k-armed Bandit Problem

想象一台老虎机,有k个拉杆(即k个action),每个拉杆动作后会产生reward。假设这些遵循某一概率分布,而不是固定值。所以估计reward的期望是很有必要的。因为当游戏的次数足够多时,reward的期望意味着执行这个action会获得的平均reward,这可以用于指导agent做决策policy。

2.2 Action-value Methods

该算法通过计算某个action获得所有reward的平均值来估计期望。决策使用贪心算法,也就是从已知的action中找到reward最大的。这种方法很稳健,但不去尝试新的方法(exploration),总是利用(exploitation)现有的知识决策,基本上不能获得高收益,就像理财。所以引入概率因子epislon,用于启发式的尝试non-greedy action,毕竟高风险高回报嘛,这就是epislon-greedy methods。

2.3 The 10-armed Testbed(例子)

2.4 Incremental Implementation

显然action-value methods每次计算均值时需要用到所有的回报Ri,不仅占内存,也消耗时间。


Reinforcement Learning - Chapter 2_第1张图片
eq2.3.png

改写公式2.1得到式2.3,如上图所示。这样只需要维护三个数OldEstimate、StepSize、Target就可以计算新均值NewEstimate进行更新迭代。

2.5 Tracking a Nonstationary Problem

本节针对现实场景中reward分布常是动态的情况进行算法优化。对比上图中因子1/n并改为alpha,如下图所示。发现这样优化算法后,其实初始价值Q1随着训练次数增多的影响力(权重)逐渐减小,而越新的奖励Ri影响越大。

Reinforcement Learning - Chapter 2_第2张图片
eq2.6.png

因权重成指数衰减,故称为 exponential recency-weighted average

2.6 Optimistic Initial Values

由式(2.6)可见,初始价值对后续的价值计算有影响。若初始值相对奖励值较大,且初始值相同则action的选择将更接近随机选择,有利于尝试新的动作(exploration)。

2.7 Upper-Confidence-Bound Action Selection

epislon-greedy算法的启发式搜索过于随机,甚至采用greedy action的概率相对non-greedy action还高一点。为了鼓励agent采用那些极少用的action以期待获得高汇报,引入公式(2.10)


eq2_10.png

显然Nt(a)越小,价值增幅越大。但文章又说该UCB方法不实用:1、难以应对动态奖励问题;2、难以应对海量状态空间。(第二个问题没太能体会到)

2.8 Gradient Bandit Algorithms

逻辑:(可能理解有误,欢迎指正。)agent执行action获得reward,并估计value用于决策。本节提出的Ht(a)类似(但并不是)之前出现的价值Qt(a),并通过soft-max来计算执行各个行为的概率。
Ht(a)的迭代更新是基于梯度上升(和梯度下降一个意思,符号增量的符号换一换),后文有具体推导过程。

2.9 Associative Search (Contextual Bandits)

本章了解即可,介绍了现实中交互任务往往较为复杂,可以当作是多个k-armed bandit task复合而成。前述的算法难以应对这样的任务。

你可能感兴趣的:(Reinforcement Learning - Chapter 2)