强化学习算法复现(二):动态规划_杰克租车问题【策略迭代】

问题描述:
杰克管理一个全国性汽车出租公司的两个地点。每天,都有一些顾客到这两个地点租车。如果有车可租,杰克就将车租出并从公司得到10美元的回扣。如果这个地点没车,杰克就失去了这笔生意。还回的车第二天就可以出租。为了使需要车的地点有车可租,杰克可以在两个地点间移动车辆,移动每辆车的费用是2美元。我们假设每个地点的车的需求量和归还量都是泊松分布变量。假设租车的期望值是3和4,还车的期望值是3和2。

为了简化问题,我们假设每个地点的车不多于20辆(多于的车被还回公司,因此就从此问题中消失了)并且一晚上最多移动5辆车。折扣率为0.9,并描述为一个有限MDP问题,时间步为天,状态是每天结束时两个地点的车辆数,动作是晚上在两个地点间移动的车辆数。

代码过程如下所示:

from matplotlib import pyplot as plt
import numpy as np
from matplotlib import animation
from scipy

你可能感兴趣的:(强化学习,强化学习,python,算法)