强化学习算法复现(四):n步自举法的价值预测能力_随机游走问题

【马尔可夫收益过程(Markov reward process , MRP)】是指不包含动作的马尔可夫决策过程,在只关心预测问题时使用的模型。

问题描述:
以中心状态C开始,在每个时刻以相同的概率向左或向右移动一个状态,在两端终止,episode终止于最右侧时会有+1的收益,除此之外收益均为0。
强化学习算法复现(四):n步自举法的价值预测能力_随机游走问题_第1张图片
对于19个状态的随机游走问题,其左端收益为-1,右端收益为+1,其真实的价值应为[ 0. , -0.9, -0.8, -0.7, -0.6, -0.5, -0.4, -0.3, -0.2, -0.1, 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0. ]

导入所需要的包:

import numpy as np
import matplotlib
import matplotlib.pyplot as plt

你可能感兴趣的:(强化学习)