强化学习的基本框架--系列文章2

强化学习的基本框架

一个强化学习系统由以下几个部分组成:
一个policy策略函数,一个reward激励函数,一个value价值函数、一个environment环境模型(非必须)

策略函数

策略函数的作用是把环境状态映射到一个最优行为。其输入是观察到的环境状态,输出是应该采取的最优行动。策略函数里面可能是一些行为规则,或者是通过查表来给出输出,或者可以是一个神经网络。另外,策略网络的输出可以包含一些随机的因素,其输出不一定必须是确定的。

激励函数
激励函数定义了整个系统的学习目标,并且把最终的目标用精确的数值来表示。激励函数的输入为观察到的环境状态变量,并通过某种映射,输出一个数值。这个数值大,表明目前的的收益越大。这个数值越小,表明系统收益越小。激励函数的输出也很可能是有随机因素的。

价值函数
如果说激励函数反应的是当前的即时奖励,那么价值函数则是评估目前状态有多少长期奖励。价值函数的目标是评估这个状态的未来所以收益的累加和。所以价值函数的反应了目前这个状态究竟有多好或者多不好。比如,在某个状态是立马获得的当期收益很少,但是延迟一段时间之后会通常会有很高的收益,那么这个状态的价值函数的值就比较高。另外一个可以类比的例子是“玩游戏”Vs "学习"。
随着研究深化,人们发现价值函数并不一定是必须的。人们在强化学习中引入了很多搜索算法,比如遗传算法,模拟退火算法等,这些算法就是直接对策略空间进行搜索。另外,2017年deepmind在Natrue上发表的论文《Mastering the game of Go without human knowledge》中,策略网络和价值网络也合为一体了。

环境模型
非必须,而且有的环境非常复杂,无法建模。

强化学习的有两大类学习方法:table--based 和policy--based,后面我们将各选一个例子对这两类方法进行讲解,分别是“-穿越冰湖的游戏”和“倒立摆控制”。

你可能感兴趣的:(强化学习的基本框架--系列文章2)