强化学习

原理

《机器学习》周志华

16.1 任务与奖赏

当我们执行某个操作时，并不能立即获得这个最终奖赏，甚至难以判断当前操作对最终奖赏的影响，仅能得到一个当前反馈。我们需多次种瓜，在种瓜过程中不断摸索，然后才能总结出较好的种瓜策略。这个过程抽象出来，就是“强化学习”(reinforcement learning)
强化学习任务通常用马尔可夫决策过程 (Markov Decision Process, MDP)来描述：机器处于环境 E 中，状态空间为 X，其中每个状态 x ∈ X 是机器感知到的环境描述，如在种瓜任务上着就是当前瓜苗长势的描述；机器能采取的动作构成了动过空间 A，如种瓜过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的动作；某个动作 a ∈ A 作用在当前状态 x 上，则潜在的转移函数 P 将使得环境从当前状态按某种概率转移到另一个状态，如瓜苗状态为缺水，若选择动作浇水，则瓜苗长势会发生变化，瓜苗有一定的概率恢复健康，也有一定的概率无法恢复；在转移到另一个状态的同时，环境会根据潜在的“奖赏”(reward)函数 R 反馈给机器一个奖赏，如保持瓜苗健康对应奖赏 +1，瓜苗凋零对应奖赏 -10，最终种出了好瓜对应奖赏 +100。综合起来，强化学习任务对应了四元组 E = ，其中 P： XAX 指定了状态转移概率，R：XAX 指定了奖赏；在有的应用中，奖赏函数可能金鱼状态转移有关，即 R：X*X。
需要注意“机器”与“环境”的界限，例如在种西瓜任务中，环境是西瓜生长的自然世界；在下棋对弈中，环境是棋盘与对手；在机器人控制中，环境是机器人的躯体与物理世界。总之，在环境中状态的转移、奖赏的返回是不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。
机器要做的是通过在环境中不断地尝试而学得一个“策略”(policy) π，根据这个策略，在状态 x 下就能得知要执行的动作 a = π(x)，例如看到瓜苗状态是缺水时，能返回动作“浇水”。策略有两种表示方法：一种是将策略表示为函数 π： X→A，确定性策略常用这种表示；另一种是概率表示 π：X * A，随机性策略常用这种表示，π(x, a)为状态x下选择动作 a 的概率。
策略的优劣取决于长期执行这一策略后得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能长期累积奖赏最大化的策略。
读者也许已经感觉到强化学习与监督学习的差别。若将这里的“状态”对应为监督学习中的“示例”、“动作”对应为“标记”，则可看出，强化学习中的“策略”实际上就相当于监督学习中的“分类器”(当动作是离散的)或“回归器”(当动作是连续的)，模型的形式并无差别。但不同的是，在强化学习中并没有监督学习中的有标记样本(即“示例-标记”对)，换言之，没有人直接告诉机器在什么状态下应该做什么动作，只有等到最终结果揭晓，才能通过“反思”之前的动作是否正确来进行学习。因此，强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机

16.2.1 探索与利用

与一般监督学习不同，强化学习任务的最终奖赏是在多步动作之后才能观察到，这里我们不妨先考虑比较简单的情形：最大化单步奖励，即仅考虑一步操作。
欲最大化单步奖赏需考虑两个方面：一是需知道每个动作带来的奖赏，二是要执行奖赏最大的动作。若每个动作对应的奖赏是一个确定值，那么尝试一遍所有的动作便能找出奖赏最大的动作。然而，更一般的情形是，一个动作的奖赏值是来自于一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值。
实际上，单步强化学习任务对应了一个理论模型，即“K-摇臂赌博机”(K-armed bandit)。K-摇臂赌博机有K个摇臂，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但这个概率赌徒并不知道，赌徒的目标是通过一定的策略最大化自己的奖赏，即获得最多的硬币。
若仅为知每个摇臂的期望奖赏，则可采用“仅探索”(exploration-only)法：将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂)，最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。若仅为执行奖赏最大的动作，则可采用“仅利用”(exploitation-only)法：按下目前最优的(即到目前为止平均奖赏最大)摇臂，若有多个摇臂同为最优，则从中随机选取一个。显然，“仅探索”法能很好地估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；“仅利用”法则相反，它没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂，因此，这两种方法都难以使最终的累积奖赏最大化。
事实上，“探索”(即估计摇臂的优劣)和“利用”(即选择当前最优摇臂)这两者是矛盾的，因为尝试次数（即总投币数）有限，加强了一方则自然会削弱另一方，这就是强化学习所面临的“探索-利用窘境”(Exploration-Exploitation dilemma)。显然，欲累积奖赏最大，则必须在探索与利用之间达成较好的折中。

3.1.1.15 强化学习

强化学习

原理

16.1 任务与奖赏

16.2 K-摇臂赌博机

16.2.1 探索与利用

Hello World

学术

工程

你可能感兴趣的:(3.1.1.15 强化学习)