强化学习-基础知识(一)

本文源自Everything You Need to Know to Get Started in Reinforcement Learning

RL是众多机器学习从业者的强有力的工具之一,本系列主要为RL的初学者介绍一些RL领域里的基础知识,以便能尽可能快的实现最新的模型。

本系列主要是对Sutton & Barto Book: Reinforcement Learning: AnIntroduction这本85页左右的RL教材的提炼和精简。

监督学习vs估价学习

     在我们所考虑的众多问题当中,监督学习有时并不会给出我们需要的灵活度。监督学习与强化学习的主要区别在于,得到的回报是可估值(evaluative)的还是有指导意义(instructive)的。instructive回报告诉你怎样去实现你的目标,然而evaluative回报告诉你实现的目标有多好。监督学习基于instructive的回报来解决问题,强化学习依赖evaluative回报。图像分类就是一个用instructive的回报来进行监督学习的例子。当该算法尝试对某些数据进行分类时,被告知哪些是正确的分类。而强化学习的回报很少告诉你正确的结果是什么,往往只是某些数值。

马尔科夫决策过程(Markov Decision Processes)

强化学习总是被建模成一个Markov Decision Processes 或者MDP,可以用一个有向图来表示,满足马尔科夫性质。

价值函数(Value Function)

累计折扣回报Reward

价值函数包含状态价值函数和行为价值函数

状态价值函数描述的是从状态s出发,根据策略得到的期望累计回报,在相同的环境下,价值函数会随着策略的变化而变化

行为价值函数描述的是从状态s出发,采取策略a之后,根据策略得到的期望累计回报

Bellman 方程

Bellman方程在RL当中几乎是无处不在的。给出了MDP的解。首先来定义一些符号

根据以上定义的符号,我们可以推导出Bellman方程,可以将价值函数重写成

如果我们从求和提取出第一个回报,可以重写成

那么上述方程可以写成两个部分:

从t时刻状态s出发,t+1时刻可以得到的reward的期望为

从t时刻状态s出发,t+2时刻及之后可以得到的累计折扣reward的期望为

那么状态价值函数就可以写成

根据状态方程的定义,可进一步表示成

同样的,对于行为价值函数的推导过程如下


Bellman方程的这种形式表示当前状态的价值函数可以用其他状态的价值函数来表示,这对于求解每个状态的价值函数的方法之一——迭代计算提供了思路。

你可能感兴趣的:(强化学习-基础知识(一))