强化学习算法复现(二):动态规划_杰克租车问题【价值迭代】

价值迭代的思想是改变最优价值函数,使其包括对所有可能性动作的评估。这样我们就可以只关注value function的收敛过程,只要value function达到最优,那策略也达到最优,value function没有最优,策略也还没有最优。

待value function收敛以后在进行决策,从而简化了迭代步骤。

可视化过程如下动图所示:

from matplotlib import pyplot as plt
import numpy as np
from matplotlib import animation
from scipy.stats import poisson  # 统计学的包,用于生成泊松分布

plt.rcParams

你可能感兴趣的:(强化学习,强化学习,算法,python)