model-free:Monte Carlo Methods-prediction

文章目录

  • 前言
  • Monte Carlo Methods(MC)
    • 1.特点
    • 2.策略评估
    • 3.first-visit MC策略评估
    • 4.every-visit MC策略评估
    • 5.价值函数更新方式
  • 总结


前言

RL学习笔记——蒙特卡洛算法


Monte Carlo Methods(MC)

基于动态规划的求解值函数与策略需要知道环境的模型,也就是状态转移函数与奖励函数,而蒙特卡洛采样方法是不需要知道这些内容即可求解值函数与最优策略。

1.特点

MC方法直接从episodes的经验中进行学习,是基于model-free的算法,无需知道模型的转移函数,MC是从完整的episodes中进行学习,从一个状态出发到达最终状态中止,因此MC要求所有的episodes必须终止,其思想是平均回报代替价值。

2.策略评估

在给定策略 π \pi π下,从一系列的episodes经验中学习价值函数 v π v_{\pi} vπ,采样序列为 { S 1 , A 1 , R 2 , . . . . . S k } \{S_1,A_1,R_2,.....S_k\} {S1,A1,R2,.....Sk},计算带折扣的回报在这里插入图片描述
价值函数是回报的期望,MC策略评估采用每个状态的平均回报代替回报的期望。

3.first-visit MC策略评估

做法:针对某个状态 S i S_i Si,在一次episode当中,只考虑第一次出现该状态的回报,在该次episode后续当中再次出现则不考虑。例如:
model-free:Monte Carlo Methods-prediction_第1张图片
对于第一个eposide当中的红色点的状态,在该次采样当中出现了两次,但在多次采样后计算红色点状态的平均回报时,第一个episode当中只采样第一次出现红色点状态的回报

4.every-visit MC策略评估

做法:针对某个状态 S i S_i Si,在一次episode当中,考虑每一次出现该状态的回报,多次采样后,对每个episode中出现过 S i S_i Si的回报求平均回报。

5.价值函数更新方式

采用增量式均值更新方式,如图所示:
model-free:Monte Carlo Methods-prediction_第2张图片
在MC策略评估中的更新步骤如下:
model-free:Monte Carlo Methods-prediction_第3张图片

总结

MC更新方式图示:
model-free:Monte Carlo Methods-prediction_第4张图片model-free:Monte Carlo Methods-prediction_第5张图片

你可能感兴趣的:(强化学习,机器学习,人工智能,算法)