3.1.1.15 强化学习

强化学习

原理

《机器学习》周志华

16.1 任务与奖赏
  • 当我们执行某个操作时,并不能立即获得这个最终奖赏,甚至难以判断当前操作对最终奖赏的影响,仅能得到一个当前反馈。我们需多次种瓜,在种瓜过程中不断摸索,然后才能总结出较好的种瓜策略。这个过程抽象出来,就是“强化学习”(reinforcement learning)

  • 强化学习任务通常用马尔可夫决策过程 (Markov Decision Process, MDP)来描述:机器处于环境 E 中,状态空间为 X,其中每个状态 x ∈ X 是机器感知到的环境描述,如在种瓜任务上着就是当前瓜苗长势的描述;机器能采取的动作构成了动过空间 A,如种瓜过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的动作;某个动作 a ∈ A 作用在当前状态 x 上,则潜在的转移函数 P 将使得环境从当前状态按某种概率转移到另一个状态,如瓜苗状态为缺水,若选择动作浇水,则瓜苗长势会发生变化,瓜苗有一定的概率恢复健康,也有一定的概率无法恢复;在转移到另一个状态的同时,环境会根据潜在的“奖赏”(reward)函数 R 反馈给机器一个奖赏,如保持瓜苗健康对应奖赏 +1, 瓜苗凋零对应奖赏 -10,最终种出了好瓜对应奖赏 +100。综合起来,强化学习任务对应了四元组 E = ,其中 P: XAX 指定了状态转移概率,R:XAX 指定了奖赏;在有的应用中,奖赏函数可能金鱼状态转移有关,即 R:X*X。

  • 需要注意“机器”与“环境”的界限,例如在种西瓜任务中,环境是西瓜生长的自然世界;在下棋对弈中,环境是棋盘与对手;在机器人控制中,环境是机器人的躯体与物理世界。总之,在环境中状态的转移、奖赏的返回是不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。

  • 机器要做的是通过在环境中不断地尝试而学得一个“策略”(policy) π,根据这个策略,在状态 x 下就能得知要执行的动作 a = π(x),例如看到瓜苗状态是缺水时,能返回动作“浇水”。策略有两种表示方法:一种是将策略表示为函数 π: X→A,确定性策略常用这种表示;另一种是概率表示 π:X * A,随机性策略常用这种表示,π(x, a)为状态x下选择动作 a 的概率。

  • 策略的优劣取决于长期执行这一策略后得到的累积奖赏,在强化学习任务中,学习的目的就是要找到能长期累积奖赏最大化的策略。

  • 读者也许已经感觉到强化学习与监督学习的差别。若将这里的“状态”对应为监督学习中的“示例”、“动作”对应为“标记”,则可看出,强化学习中的“策略”实际上就相当于监督学习中的“分类器”(当动作是离散的)或“回归器”(当动作是连续的),模型的形式并无差别。但不同的是,在强化学习中并没有监督学习中的有标记样本(即“示例-标记”对),换言之,没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习。因此,强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机
16.2.1 探索与利用
  • 与一般监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖励,即仅考虑一步操作。
  • 欲最大化单步奖赏需考虑两个方面:一是需知道每个动作带来的奖赏,二是要执行奖赏最大的动作。若每个动作对应的奖赏是一个确定值,那么尝试一遍所有的动作便能找出奖赏最大的动作。然而,更一般的情形是,一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值。
  • 实际上,单步强化学习任务对应了一个理论模型,即“K-摇臂赌博机”(K-armed bandit)。K-摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道,赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。
  • 若仅为知每个摇臂的期望奖赏,则可采用“仅探索”(exploration-only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。若仅为执行奖赏最大的动作,则可采用“仅利用”(exploitation-only)法:按下目前最优的(即到目前为止平均奖赏最大)摇臂,若有多个摇臂同为最优,则从中随机选取一个。显然,“仅探索”法能很好地估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;“仅利用”法则相反,它没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂,因此,这两种方法都难以使最终的累积奖赏最大化。
  • 事实上,“探索”(即估计摇臂的优劣)和“利用”(即选择当前最优摇臂)这两者是矛盾的,因为尝试次数(即总投币数)有限,加强了一方则自然会削弱另一方,这就是强化学习所面临的“探索-利用窘境”(Exploration-Exploitation dilemma)。显然,欲累积奖赏最大,则必须在探索与利用之间达成较好的折中。

Hello World

学术

工程

你可能感兴趣的:(3.1.1.15 强化学习)