马尔可夫决策和贝尔曼方程

马尔可夫决策和贝尔曼方程

一、什么是马尔可夫性、马尔可夫过程和马尔可夫决策过程

1) 马尔可夫性是指当前状态s包含了过去所有的历史信息,由当前决定未来;
2) 马尔可夫过程,就是具有马尔可夫性的随机过程(通常由链表示,也叫马尔科夫链),仅包含状态、状态到状态的转移概率;
3) 马尔可夫决策过程,是根据马尔可夫过程按照策略做出决策,由(S\A\R\P\gama)组成;

二、对于一个马尔可夫决策过程,R有限时,状态转移函数和回报函数

1) 状态转移函数

`马尔可夫决策和贝尔曼方程_第1张图片
PI(a|s)表示在当前状态s下,采取动作a的概率,也就是决策(概率),那么从状态s跳转到s’就为采取能够跳转到s‘的动作a的概率和采取动作a后能够从s成功跳转到s’的概率之积;当前状态s下有很多a可以行动(例如a1,a2),并都可以跳转至s’,只不过他们跳转的概率不同,可能a1对应的跳转概率大一些,那么求和就可以得到当前策略PI下,由当前状态s跳转到状态s’的概率;

2)回报函数

马尔可夫决策和贝尔曼方程_第2张图片
当前状态s下采取行动a,环境会给出一个立即回报R(a|s),个行动a下的回报和就是针对当前策略PI下的立即回报;

三、贝尔曼期望方程和贝尔曼最优方程的数学描述

1)贝尔曼期望方程

首先讲什么是值函数,又分为状态值函数V(s),表示当前状态s所具有的价值;行为值函数Q(s,a),表示当前状态s下采取行为a时,评估这个决策的好坏;数学上,这些“价值”和“好坏”,是未来回报的期望值(即用未来可能收到的回报来评估当前的状态或当前状态下的决策);

回报由立即奖励和下一时刻的值函数组成,简称:当前值函数由E(立即回报+下一时刻的折扣回报)组成,值函数是对未来回报的期望,是估计。
马尔可夫决策和贝尔曼方程_第3张图片
在这里插入图片描述

2)贝尔曼最优方程

一个马尔可夫链中,有很多的状态s,s’,s’’,…,各个状态所具有值函数大小也不同,例如处于状态s’时,它对未来回报的期望就很高,可能会获得很多的奖励,所以智能体会尽可能处于状态s’。对于行为值函数,采取不同的行为所对应的行为值函数大小也不同,智能体会尽可能往较大行为值函数的方向进行决策。这些最优值函数就是所谓的贝尔曼最优方程:
在这里插入图片描述

四、强化学习的目标是什么、什么是最优策略和最优值函数

显然,强化学习的目的,就是去优化策略,使智能体尽可能去获得最多的未来回报,也就是最大化值函数。

你可能感兴趣的:(强化学习,强化学习)