(二)强化学习——有限的马尔可夫决策过程(有限MDP)

我们知道强化学习是一种算法,算法的本质就是数学,而数学作为一种人类为了解世界而建立的逻辑学科。你如果想要用数学来解决客观世界中的问题。那么首先你就得在客观问题上抽象出基础的理论形式。MDP就是强化学习问题在数学上的理想化形式,因为在这个框架下我们可以进行精确的理论说明。MDP理论的发展源于对不确定性条件下的决策序列问题的研究,这种问题中的每个决策都依赖于之前一系列的决策及结果。它有时被称为多阶段决策理论,或者序列决策过程。

“智能体-环境”交互接口

MDP是一种通过交互式学习来实现目标的理论框架,是目标导向的交互式学习问题的一个高度抽象。MDP由构成一个元组,这里的S是一个有限的状态集合,A是有限的动作集合,P是基于行为和状态的转移概率矩阵,R是基于状态和行为的奖励函数,γ是一个衰减因子,也叫折扣回报,γ∈[0,1]。这是MDP的5要素。
下面我们来看一下基于MDP的学习过程。进行学习及实施决策的机器被称为智能体(agent),智能体之外的所有与其相互作用的事物都被称为环境。强化学习过程就是智能体不断与环境进行交互,最大化累计回报的过程。
(二)强化学习——有限的马尔可夫决策过程(有限MDP)_第1张图片
其中A表示动作,S表示状态,R表示收益。我们来模拟一次t时刻智能体体与环境的交互过程。在时刻t,agent对环境做出一个动作At,环境会返回一个Rt+1,和St+1(这里的表示t也可以,为了保持后面公式的一致性),表示t时刻的奖励和返回的下一个状态,开始下一次循环。从而,MDP和智能体共同给出一个序列或者轨迹:
S0, A0, R1, S1, A1, R2, S2, A2, R3,…
在有限的MDP中,转态,动作,和收益(S,A,R这里表示集合)都只有有限个元素。在这种情况下,随机变量RtSt(加粗表示随机变量)具有定义明确的离散概率分布,并且只依赖于前继状态和动作。也就是说,给定前继状态和动作时,这些随机变量的特定值,在t时刻出现的概率是如下公式:
在这里插入图片描述
等号上一点表示说明是定义,函数p定义了MDP的动态特性。函数p为每个s和a的选择都指定了一个概率分布:
在这里插入图片描述
这个公式其实很好理解,就是相当于当给定一个s,a时,环境返回的下一个状态和回报的所有可能性和为1,考虑到了所有的情况。从四个参数的函数p中,我们可以计算出关于环境的任何其他信息,比如MDP的五要素之一的状态转移概率:
在这里插入图片描述
这个定义我们不关心反返回值r是怎么样的,只关注状态,就相当于是不同r但相同转态的相加生产的一个概率分布。我们还可以定义“状态-动作”二元组的期望收益。
在这里插入图片描述
r表示的是动作a,转态s时返回的收益,从数学上来理解公式就是r与返回r的概率相乘相加,就是一个期望值,也就是平均值。从通俗理解上来说,你可以理解为,在转态s的情况下,执行动作a的一个打分,打分越高r(s,a)越大,说明在这个状态下这个动作越好。

回报(Return)和分幕(epsodes)

到目前为止,我们知道了MDP的5要素,知道了智能体与环境的交互过程是怎么样的。在智能体与环境的交互过程中,每一次交互都会产生一个r,交互很多次后就会产生一个轨迹或者序列。智能体与环境的交互有多个序列,每个序列我们就称之为。例如一盘游戏,一次走迷宫的旅程,或者任何这类重复性的交互过程。每幕都以特殊状态结束,称之为终结状态。随后会重新从某个标准的起始状态或起始状态的分布中的某个状态样本开始。但在许多情况下,智能体-环境的交互不一定能够被自然的分为单独的幕,而是持续不断的发生。比如一个连续的过程控制任务或者长期运行的机器人应用。我们称这些为持续性任务

如果你问某个专业的人“什么是强化学习?”,他大概率会提到最大化的回报。那么什么是回报呢。我们直接看公式定义。
在这里插入图片描述
我们用Gt来表示累计回报,表式的是从t时刻到最后的终态(轨迹有终态我们可以用蒙特卡洛算法或者TD,无终态用TD算法,这是后边的内容,这里提一嘴)所有奖励的和。 γ是折扣回报,从公式可以看出。当γ=0时,t时刻的回报只与当前时刻的r有关,只会选择当前最大r的动作,智能体通过单独最大化每个当前收益来最大化,这是目光短浅的。一般来说,最大化当前收益会减少未来的收益,以至于实际上的收益减少了。随着γ越接近与1,折扣回报将更多的考虑未来的收益,也就是说智能体变得更加有远见了。
这里值得注意的是,邻接时刻的回报可以用如下图递归方式相互联系起来,这对于强化学习的理论和算法来说至关重要。
(二)强化学习——有限的马尔可夫决策过程(有限MDP)_第2张图片

进一步的,为了统一分幕式和持续性任务的统一表示法,我们将回重新报定义为如下
(二)强化学习——有限的马尔可夫决策过程(有限MDP)_第3张图片
并允许上式包括T为正无穷的情况或者γ=1(但不是二者同时)的可能性。
数学的理论基本形式有了,目标的回报定义我们也有了。我们下面需要做的就是,怎么才能从这些智能体与环境的交互轨迹中通过数学的算法使咱们的回报最大。下一节咱们开始介绍策略函数和价值函数,这两个概念对于后面强化学习的算法很重要。

你可能感兴趣的:(强化学习(RL)学习分享,人工智能)