强化学习第一课-概括与基础(上)

课程安排如下:

强化学习第一课-概括与基础(上)_第1张图片 强化学习第一课-概括与基础(上)_第2张图片

什么是强化学习?

强化学习实际上是一种机器学习范式,适用于多阶段序贯决策以获得较好的长期回报的场景。在这个图中展示了强化学习的一些关键要素。Agent是需要去做决策的智能体,Environment是智能体所处的环境,环境会向智能体提供一定的可观测的信息,也就是智能体所处的State,并且处于特定State的智能体会得到一定的Reward,智能体根据State可以采取相应的Action,从而实现最大化长期收益的目的。
强化学习第一课-概括与基础(上)_第3张图片

1.监督学习和强化学习进行对比:

  • 图片分类的实验中,先有一大堆标定的数据,比如车、飞机等图片,然后训练一个分类器,网络在训练时已经把真实的Label给到网络了,如果预测错误,比如把车预测成飞机,就直接说预测是错误的,把错误的写成一个loss函数。所以在监督学习中,输入的数据都是没有关联的,如果有关联,网络就会不好学习。监督学习告诉了learner,正确的标签是什么,使用正确的标签来修正自己的预测。
  • 但是在强化学习中,这两点都不满足,强化学习的训练数据就是玩游戏的一个过程,数据就是游戏中的这样一个过程序列,比如游戏走在第三步的时候,将这个learner放入到网络,希望网络在当前的状态下输出一个决策,但是我们并没有标签告诉我们这个决策动作是正确的还是错误的,得等到游戏结束才行。面临一个奖励延迟,训练网络就是比较困难的。

综上,监督学习和强化学习的不同点有:

  1. 强化学习的序列数据不像监督学习中的样本都是i.i.d数据,即满足独立同分布。
  2. 并没有告诉learner哪一个是正确的,哪一步是错误的,learner必须自己去发现。只能通过自己不断地去尝试哪些是最有利的行为。
  3. 强化学习在获得自己能力的过程中,不断地试错。
  4. 强化学习中是无监督的,它只有一个奖励信号,环境会在很久以后会告诉你之前采取的行为是不是有效的。强化学习中的学习是比较困难的,正确的行为是不被立刻告知的。

强化学习的特点:

  1. 通过不断的探索来获取对环境的理解。
  2. agent在环境中获得延迟的奖励。
  3. 强化学习中的时间非常重要,因为数据都是有时间关联的(机器学习中,数据越有关联,训练就会非常的不稳定)。所以在强化学习中,希望数据之间也是有较少的关联性,即是i.i.d数据,也叫独立同分布数据。
  4. agent的行为会影响他稍后得到的数据,agent的行为会改变环境。所以强化学习中的一个很重要的问题就是如何让agent的行为得到一个稳定的提升。

为什么关注强化学习,就是强化学习得到的结果能得到超人类的结果。
实际应用:玩游戏、下围棋/象棋、机械臂
强化学习第一课-概括与基础(上)_第4张图片

你可能感兴趣的:(强化学习)