贝尔曼方程推导

马尔可夫的动态特性
![马尔可夫的动态特性]
回报:(两种定义)
在这里插入图片描述

在这过街老鼠里插入图片描述
(折扣率大于等于0小于等于1,折扣率决定了未来收益的现值)

状态价值函数:从状态s开始,智能体按照策略π进行决策所获得回报的概率期望值
在这里插入图片描述
动作价值函数在这里插入图片描述
动作价值函数与状态价值函数的关系在这里插入图片描述
动作价值函数与马尔可夫的动态特性的关系贝尔曼方程推导_第1张图片
因此贝尔曼方程推导为贝尔曼方程推导_第2张图片
或(原理一样,只不过我当时没看明白书上的推导,所以按照自己的理解根据回溯图手写了一下,其实手写和书上截图的推导是一样一样的)
贝尔曼方程推导_第3张图片
贝尔曼方程用等式表达了状态价值和后续状态价值之间的关系。

你可能感兴趣的:(强化学习)