机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习

深度强化学习

  • 15年2月:Google在nature上的文章,用RL玩atari游戏,可以超越人类玩家表现。
  • 16年春天:基于RL的Alphago横扫人类棋手。

其实AI被大众所熟知,并不是2012年的imagenet的突破,而是AlphaGo。

AlphaGo的核心原理就是深度强化学习。 也就是用深度神经网络实现的强化学习算法。

1. 原理复习

  • Agent和Environment

Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新的环境中获得Reward。循环上述步骤。

  • 举例:

机器人把水杯打翻了,人类说“不能这么做”,机器人获得人类的这个负向反馈,然后机器人观察到水杯打翻的状态,采取了拖地的行为,获得了人类的“谢谢”的正向反馈。

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第1张图片

Agent学习的目标就是使得期望的回报(reward)最大化。

注意:State(observation说法更贴切)指的是Agent观察到的Environment的状态,不是指machine本身的状态。

对Alphago来说,Observation就是19×19的一个棋盘,于是它落下一黑子:

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第2张图片

然后对手下了一个白子,Alphago观察到一个新Observation(有两颗棋子的),再下一颗黑子:

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第3张图片

不过RL比较困难的一个地方是:Reward是比较难获得的,而Agent就是依靠Reward来进行学习,进行自身策略的调整。

2. 监督学习与增强学习

  • 监督学习的行动方案(跟着老师学):
    看到一个局式,机器就从经验中找寻和这个局式相同的那个做法,并采取经验中的应对方法,因为通过经验了解到这种应对方法是最好的(只是经验中的最好,并不代表对于Go的局势来说真的最好)。然而问题也就在于,人类也不知道哪一种应对方法时最优的,所以让机器从人类棋谱中学习,可能可以下的不错,但不一定是最厉害的。

  • RL的行动方案(从经验中学习)
    机器自己去和别人下围棋,赢了就是正反馈,输了就是负反馈。不过机器不知道自己下的那么多步里面哪些好,哪些不好,需要自己去搞清楚。

不管是哪种方法,都需要有大量的训练例子,比如监督学习要看上千万的棋谱,RL要下上千万盘的棋。不过对于RL来说,很难有人类和它下几千万盘棋,所以策略是先用监督学习训练处两个下得还可以的机器,再让它们用RL互相对着下。

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第4张图片

3. 深度强化学习应用

(1) 对话机器人

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第5张图片
同样有监督学习和RL的学习差别:
机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第6张图片

(2) 交互式探索

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第7张图片

(3) 玩电脑游戏:

机器用RL学习玩游戏和人类是一样的输入:电脑屏幕(像素输入),而不是像传统的游戏内置AI,是通过从程序里面直接获得某些数据来进行行动。RL的机器通过自主学习以采取合适的行为。

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第8张图片

比如经典的太空入侵者游戏:飞机有三种行动选择,开火,左移,右移。Reward是游戏界面上的分数(不是看像素)。

如下图,飞机观察到第一种情况s1,决定右移,结果返现反馈为0,这时它观察完当前情况s2,选择开火,杀死一个外星人,发现获得了5的reward。观察到新的情况s3(少了一个外星人),继续行动…… 游戏从一次开始到结束称为一个episode,而机器的学习目标就是最大化每个episode的累积分数。

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第9张图片

(4) 更多应用
开直升机、无人驾驶、智能节电、文本生成:

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第10张图片

4. 学习方法(复习)

  • Policy-based:学习到一个Actor
  • Value-based:学习到一个Critic
  • Actor-Critic

机器学习与深度学习系列连载: 第三部分 强化学习(十) 深度强化学习_第11张图片

5. 小结

本篇主要是介绍深度强化学习的概念和应用,读者可以看到,基本上和强化学习是一脉相承,没有大的本质区别,但是最新的PPO,A3C等深度强化学习算法,我们会一一为大家剖析!敬请期待!

本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里,感谢这些经典课程,向他们致敬!

你可能感兴趣的:(深度学习,神经网络,强化学习,强化学习)