#David Silver Reinforcement Learning # 笔记2-MDP

这节课同样讲的一些基础概念，为之后的课程做铺垫。

马尔科夫过程（Markov Processes）

S是一个有限的状态集合
P是state之间的转移矩阵 Pss‘ = P [St+1 = s’ | St = s]
那么马尔科夫过程就是

马尔科夫奖励过程（Markov Reward Process，MRP）

马尔科夫奖励过程就是在马尔科夫过程的基础上添加了奖励机制。
同样：
S是一个有限的状态集合
P是state之间的转移矩阵
R 是一个reward function， Rs = E [Rt+1 | St = s]
γ 是一个折扣因子，取值范围 [0，1]
马尔科夫奖励过程就是

定义Return Gt：

#David Silver Reinforcement Learning # 笔记2-MDP_第1张图片

image.png

当前时刻开始，到达到最终状态所得到的所有奖励之和。
那么折扣因子是什么？为什么需要折扣因子？
γ 通俗点解释，表示有多在乎未来的奖励。γ 越大表示越在意未来的奖励，γ 越小，越在乎当下的收益，比如一些金融的交易，更在乎当下能有多少收益。
需要折扣因子的原因是1.避免return无限大。2.数学上表示方便。3.我们对我们的模型没有足够的信心，我们并不完全相信我们之后的决定。

值函数（Value Function）

我们如何评价我们的模型当前的选择是否好呢？
我们可以用值函数来评估奖励，通过奖励来评估选择的好坏，人们最终需要达到的是奖励最大的过程。从当前状态出发，有一个转移概率转移到下一个状态，那么哪条路比较好呢？用哪一条路来作为在当前状态到最终状态的奖励呢？答案是都不行。我们需要用一个定量来评估，而这个定量就是平均值，所有可能的路径之和，也就是期望来作为评分函数。所以：