马尔可夫决策过程

马尔可夫决策过程(Markov Decision Progress,MDP)可以用来描述绝大部分的机器强化学习,其过程为:机器处于一个环境中,有不同的动作可以执行,每执行一个动作都会以一定概率将当前环境的状态转移到另一个状态,状态转换后环境会根据一定的规则给机器一个反馈,这个反馈也称为“奖赏”,可能是奖励,也可能是惩罚,如此不断交互。

马尔可夫决策过程

书中有个浇西瓜的任务,在这个问题里,机器面临的环境就是西瓜,然后有浇水和不浇水两种行为,西瓜有缺水,健康,溢水,凋亡4种状态,机器选择浇水/不浇水都会以一定概率转换为另一个状态,然后转换后的环境会为本次动作提供奖赏,如果缺水扣1分,如果健康得1分,如果溢水扣1分,如果西瓜挂了,就扣100分。

西瓜浇水问题的马尔可夫决策过程

图中s即表示当前环境的状态,a代表执行的动作,p表示执行动作之后转换到某种状态的概率,r表示转换状态后环境给给予的奖赏。如机器在西瓜缺水的时候选择浇水,那有50%的可能西瓜会恢复健康,给1分奖励,也有50%的可能还是缺水,这时扣1分。我们期望的就是机器通过不断地对奖赏进行评估,朝着拿更好的奖赏的方向前进,在种出无数个烂瓜之后最终学会如何种出一个好瓜。

你可能感兴趣的:(马尔可夫决策过程)