Reinforcement Learning: An Introduction 阅读笔记(一)

前言

开新坑系列……
先来谈谈什么是强化学习,或者说增强学习。强化学习就是指再一个特定环境下,通过与环境交互,获得环境的反馈从而进行学习的智能算法。什么是特定环境呢?举个flappy bird的例子(博主的执念),flappy bird游戏的核心目标,就是使得玩家操作的鸟,不装到柱子上。作为人类,我们也会再游戏进程中无意或者有意的去发现一些规律,取得更高的分数。强化学习要做的就是将这种能力注意到学习算法上,也就是训练一个智能体(Agent)
从深蓝击败国际象棋冠军,到Alpha Go,星际争霸和Dota2的AI。如今过去了多年,我们还是要回过头来看看强化学习发展的历程。
Reinforcement Learning: An Introduction 阅读笔记(一)_第1张图片
Reinforcement Learning: An Introduction是一本介绍了强化学习算法方方面面的书,我会记录在阅读中的思考和联想,一共阅读者参考。博主从19年6月接触强化学习,也只是读过一些最近的RL方面的工作,堆RL并非知根知底,如有错误还请不吝赐教。

Reinforcement Learning: An Introduction:一书将强化学习算法大致分了两类:Tabular Solution Methods,和Approximate Solution Methods。前者更专注于数学模型,而后者注重于模拟这个过程本身。

引子

强化学习,是在一个特定环境中,通过一系列操作,从环境的反应中学习到回馈(reward)最大的算法。强化学习需要一个“形式”,也就是组成强化学习的必要条件,也称马尔科夫决策过程,有了定义之后,才算一个完整的强化学习过程。
我们简化一下整个过程,一个智能体,也就是我们的算法,需要感知我们设定好的环境的状态(state),并且采取能够改变状态的操作(action),同时这个智能体需要一个目标,也就是提到的回馈。以后的博文会仔细谈一下马尔可夫决策过程。

强化学习和监督学习不同,监督学习实际上需要一个绝对正确的标签来控制模型的走向,而强化学习则很难找到当前状态下的最优决策。

强化学习还有这样的特点,当我们在一个状态的时候,算法能够选择是否执行过去已经执行的过的操作,我简介为复用(exploitation),或者执行新操作,也就是探索(exploration)。算法需要在这两个策略中找到平衡。

强化学习同时也是一种全局的,我们对比有监督学习,有监督学习模型的上限也就是训练数据,但是训练数据的上限是不存在的。而对于强化学习,黄静本身是不不变的(大多数情况下)。监督学习,可以被看成是在优先范围内的子问题的解,我们希望这个子问题的解来解决整个问题,而强化学习则无法从这一角度入手。

强化学习的局限

首先强化学习极其依赖于状态的定义,实际上很难确定一个状态定义的好坏,但实际上强化学习的重点是如何指定决策,在这一程度上也可以认为状态是次要的。

值函数(value-function)

值函数其实是回馈的期望,回馈是瞬时的,而值函数则是长期的,我们需要不仅需要短期收益,同时也需要长期收益。实际上值函数很难被确定,也就有了Approximate Solution Methods,这里近似的实际上就是值函数。

总结

强化学习等于机器的,自动的,最优的制定决策,它通过直接于环境交互,获得环境的回馈进行自我更新。一个强化学习建模,要基于马尔可夫决策过程进行建筑。

你可能感兴趣的:(machine,learning)