算法学习(七)——一些基本概念:model base和model free,On-Policy 和 Off-Policy,On-Line 学习和 Off-Line 学习

model base和model free:

model base指状态之间的转移关系确定,从而可以将决策问题转化成一个马尔科夫过程,从而用动态规划的方式得到最优解,使用条件比较苛刻。状态转移概率矩阵如下图:

算法学习(七)——一些基本概念:model base和model free,On-Policy 和 Off-Policy,On-Line 学习和 Off-Line 学习_第1张图片

model free使用更加广泛,不需要明确的状态和之间的转移概率。

 

On-Policy 和 Off-Policy:

指更新状态矩阵的方法和选择策略的方式是否一致,一致就是On-Policy,不一致就是Off-Policy。

SARSA的更新公式为:

其中Q(S,A)更新和选择使用的方法一致,所以为On-Policy。此处我的理解为使用ε-greedy方法。

Q-learning的更新公式为:

更新公式中使用max,与算法选择不一致,所以为Off-Policy。

 

On-Line 学习和 Off-Line 学习:

一般的图片分类问题为Off-Line,别和环境交互,边改变q的权值就是On-Line 学习

 

 

你可能感兴趣的:(强化学习,算法,python,机器学习,人工智能)