【Reinforcement Learning】什么是强化学习以及算法分类

一、什么是强化学习

强化学习是一类算法,让计算机从什么都不懂,通过不断尝试,从错误中学习,找到规律,从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试,更新自己的行为准则。
计算机需要一位虚拟的老师,他要做的事情就是给行为打分,计算机只需要记住高分和低分对应的行为,下一次只需要执行高分行为就能得到高分(分数导向性)。类似于监督学习中学习正确标签,不同的是,强化学习最开始没有准备好的数据和标签,是在不断的尝试中得到数据和对应的标签(奖励值)。
强化学习是和监督学习、无监督学习并列的第三种机器学习方法,如下图:
【Reinforcement Learning】什么是强化学习以及算法分类_第1张图片

强化学习包含了很多经典的算法(在后面一节会详细说明不同的分类方式):

  • 通过价值选行为
    • Q Learning(表格学习)
    • Sarsa(表格学习)
    • Deep Q Network(神经网络学习)
  • 直接选行为
    • Policy Gradients
  • 想象环境并从中学习
    • Model based RL

二、强化学习建模

【Reinforcement Learning】什么是强化学习以及算法分类_第2张图片
强化学习的思路:大脑表示算法执行个体,通过操作个体来做决策,即是选择一个行为(action);地球表示研究的环境,它有自身的状态(state),当选择行为 A t A_t At后,环境状态会发生变化,同时得到一个延迟奖励(reward)。然后个体选择下一次的行为,环境状态改变,获得奖励…

三、强化学习方法分类

分类1:不理解环境(Model-Free RL)和理解环境(Model-Based RL)
【Reinforcement Learning】什么是强化学习以及算法分类_第3张图片
【Reinforcement Learning】什么是强化学习以及算法分类_第4张图片
Model-Based RL多出一个虚拟环境,方法和Model-Free RL中一样。Model-Based RL具有想象力,通过想象力预判断下一步的行为,而Model-Free RL只能按部就班。
【Reinforcement Learning】什么是强化学习以及算法分类_第5张图片
分类2:基于概率(Policy-Based RL)和基于价值(Value-Based RL)
【Reinforcement Learning】什么是强化学习以及算法分类_第6张图片
基于概率的RL可以处理连续的东西,而基于价值不能处理,但是基于概率的缺点是概率更高,不一定会被选中。
【Reinforcement Learning】什么是强化学习以及算法分类_第7张图片
分类3:回合更新(Monte-Carlo update)和单步更新(Temporal-Difference update)
【Reinforcement Learning】什么是强化学习以及算法分类_第8张图片
单步更新可以边执行边更新。
【Reinforcement Learning】什么是强化学习以及算法分类_第9张图片
分类4:在线学习(On-Policy)和离线学习(Off-Policy)
【Reinforcement Learning】什么是强化学习以及算法分类_第10张图片
【Reinforcement Learning】什么是强化学习以及算法分类_第11张图片

你可能感兴趣的:(Learning,算法,数据挖掘,强化学习)