Lee Hung-yi强化学习 | (1) Scratching the surface

课程网站
B站视频

文章目录

      • 1. 简介
      • 2. Policy based Approach(Learning an Actor)

1. 简介

深度强化学习:AI = 强化学习(RL)+ 深度学习(DL)
Lee Hung-yi强化学习 | (1) Scratching the surface_第1张图片

  • 强化学习场景
    Lee Hung-yi强化学习 | (1) Scratching the surface_第2张图片
    State:环境的状态,即机器所能观察到的东西
    观察:一杯水 动作:打翻这杯水 奖励:消极奖励
    Lee Hung-yi强化学习 | (1) Scratching the surface_第3张图片
    观察:打翻的水杯 动作:擦干净 奖励:积极奖励
    机器学习采取一些动作来最大化期望的奖励。

  • 围棋场景
    Lee Hung-yi强化学习 | (1) Scratching the surface_第4张图片
    机器观察到是一张图片(像素/环境的状态),然后采取相应的落子动作,从而影响环境,环境给机器相应的奖励。
    难点:只有少数的动作才会有奖励,奖励非常稀疏。(在围棋中只有获胜奖励为1,输奖励为-1)

  • 监督学习 v.s. 强化学习
    监督学习:从老师那里学习,结果只能使得机器会下围棋,但并非是最强的。
    强化学习:没有老师告诉你什么是好的,什么是差的。机器想办法自己探索学到。适用于某个task,人也不知道怎么做最好,没有golden label,可以尝试RL。
    Lee Hung-yi强化学习 | (1) Scratching the surface_第5张图片
    例子:聊天机器人Chat-bot
    Lee Hung-yi强化学习 | (1) Scratching the surface_第6张图片
    强化学习方式:让机器和人进行对话,如果人最后生气了(消极的奖励),说明对话过程中,机器表现不好,但并没有具体告诉机器哪里不好,需要机器自己探索学习。机器通过不断试错,从经验中进行学习。实际中,可以先训练两个有对话能力的机器,让他们互相对话。
    Lee Hung-yi强化学习 | (1) Scratching the surface_第7张图片
    Deep Reinforcement Learning for Dialogue Generation

  • 应用
    1)Flying Helicopter

  1. 无人驾驶
  2. 文本生成(机器翻译、文本摘要等)
    Hongyu Guo, “Generating Text with Deep Reinforcement Learning”, NIPS 2015
    Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli Wojciech Zaremba ,“Sequence Level Training with Recurrent Neural Networks”, ICLR, 2016
  • Video Game
    强化学习主要应用场景是游戏,围棋相对简单,输赢比较明确。
    Lee Hung-yi强化学习 | (1) Scratching the surface_第8张图片
    让机器和人类一样玩游戏,机器看到的和人一样是图像/像素,机器自己学习采用合适的动作(不是人定义的,if…then…)

Lee Hung-yi强化学习 | (1) Scratching the surface_第9张图片
Space incader这款游戏可以采取 左移、右移、开火三个动作。
Lee Hung-yi强化学习 | (1) Scratching the surface_第10张图片环境具有一定的随机性,环境的状态会随机改变,这种改变与机器的动作无关。

经过多轮之后,游戏结束(所有外星人被消灭或者你的飞船被摧毁),称为一个episode。
目标:学习最大化每一个episode的累积期望奖励。
Lee Hung-yi强化学习 | (1) Scratching the surface_第11张图片

  • 强化学习的困难
    Lee Hung-yi强化学习 | (1) Scratching the surface_第12张图片
    1)奖励延迟:在space invader中,只有“fire“动作可以获得奖励,虽然“左移“、”右移“本身没有奖励,但是可以帮助你在未来获取奖励(长期规划)
    2)探索没有做过的行为非常重要。(这些行为可能是好的,也可能是坏的)

  • Outline
    强化学习的分类:
    Lee Hung-yi强化学习 | (1) Scratching the surface_第13张图片
    Asynchronous Advantage Actor Critic(A3C)
    “Asynchronous Methods forDeep Reinforcement Learning”, ICML, 2016

  • 学习资源
    1)强化学习圣经
    Textbook: Reinforcement Learning: An Introduction

  1. David Silver强化学习教程
    https://www.davidsilver.uk/teaching/
    http://videolectures.net/rldm2015_silver_reinforcement_learning/
    3)Lectures of John Schulman(侧重 policy-based)

2. Policy based Approach(Learning an Actor)

强化学习也属于机器学习的范畴,本质上还是找到一个函数。
Actor也叫Policy,他是一个函数,一般用 π \pi π表示,输入观察/状态,输出动作。
Actor可以采用神经网络结构实现,此时的强化学习被称为深度强化学习。
Lee Hung-yi强化学习 | (1) Scratching the surface_第14张图片

  • 深度学习三部曲
    Lee Hung-yi强化学习 | (1) Scratching the surface_第15张图片Actor采用神经网络结构
    Lee Hung-yi强化学习 | (1) Scratching the surface_第16张图片相比于look up table,Actor采用NN的好处在于,look up table无法穷举,NN可以做到举一反三,泛化性更好。generalization

评估Actor/函数的好坏
在监督学习中,我们计算模型预测输出和target之间的交叉熵损失,找到一组参数来最小化该损失。
Lee Hung-yi强化学习 | (1) Scratching the surface_第17张图片
强化学习:
Lee Hung-yi强化学习 | (1) Scratching the surface_第18张图片

Lee Hung-yi强化学习 | (1) Scratching the surface_第19张图片
挑选最好的函数(Actor/Policy)
Lee Hung-yi强化学习 | (1) Scratching the surface_第20张图片 R ( τ ) R(\tau) R(τ) θ \theta θ无关。

Lee Hung-yi强化学习 | (1) Scratching the surface_第21张图片
Lee Hung-yi强化学习 | (1) Scratching the surface_第22张图片
Lee Hung-yi强化学习 | (1) Scratching the surface_第23张图片
Lee Hung-yi强化学习 | (1) Scratching the surface_第24张图片下图中梯度除以这个条件概率,可以起到归一化的作用。不除的话,update会偏向于出现次数比较多(出现概率比较大)的动作,这些action并非很好(如action b。归一化之后,可以缓解这个问题。
Lee Hung-yi强化学习 | (1) Scratching the surface_第25张图片
如果 R ( τ n ) R(\tau^n) R(τn)恒正:在理想状态下,每个action都有可能被采样,假设a和c的reward比较高,b比较低,a、c被采样的概率会增加,b会降低,没有什么问题;而实际上,我们只采样了一部分游戏过程,有些动作可能没有出现过,这样被采样的动作概率会增加,没有被采样的则会降低。所以可以添加一个baseline,当reward>baseline时,则增加所采样动作的概率,反之则减少所采样动作的概率。
Lee Hung-yi强化学习 | (1) Scratching the surface_第26张图片

你可能感兴趣的:(Lee,Hung-yi强化学习)