为什么Q-Learning有效?

关于增强学习Q(s,a)的理解。

Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
关于最优价值函数、最优行为的定义如下:

最优价值函数
最优行为
最优价值函数的学习准则

最近在思考,为什么Q-Learning能取得如此好的效果。

总结关键点如下:

  • Q-Learning是通过直接解Belleman最优方程来求解最优Q值,而不是在无限多的策略π中选择最优的策略的Q值。
  • Belleman最优方程存在条件是要选择最优行为,因此Q-Learning的策略就是选择最优状态下Q值最大的行为。(存在条件、行为策略两者恰好统一)。
  • 通过Incremental Improvement, 这种学习方法可以做到Policy Imporvement(更新后的Q值一定不比原来的差)。从而,实现了从任意状态开始进行学习,可以收敛到最优的价值函数。(这一点可以参照《Reinforcement Learning: An Introduction》的4.2节P62)
Q-Learning的学习方法

你可能感兴趣的:(为什么Q-Learning有效?)