《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法

    • 1、时间差分方法与动态规划方法和蒙特卡罗方法的差异
        • (1)动态规划方法
        • (2)蒙特卡罗方法
        • (3)时间差分方法
    • 2、同策略的Sarsa方法和不同策略的Qlearning方法
        • (1)Sarsa
        • (2)Qlearning
    • 3、基于python的编程
        • (1)利用TD方法进行策略评估
        • (2)Sarsa算法
        • (3)Qlearning算法
          • 值函数表示
          • epsilon贪婪探索策略
          • 选择动作的贪婪策略
          • 值函数更新

时间差分(Temporal-Difference,简称TD)方法是一种无模型的强化学习方法,也是强化学习理论中最核心的内容。
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第1张图片

1、时间差分方法与动态规划方法和蒙特卡罗方法的差异

与动态规划方法和蒙特卡罗方法相比,时间差分方法的主要不同在于值函数的估计。

(1)动态规划方法

在这里插入图片描述
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第2张图片
动态规划方法计算值函数的时候,用到了当前状态S的所有后继状态S’处的值函数,值函数的计算用到了bootstrapping(自举)方法,是由模型得到的。

(2)蒙特卡罗方法

在这里插入图片描述
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第3张图片
蒙特卡罗方法是利用经验平均估计状态的值函数。此处的经验是指一次试验,一次试验要等到终止状态才结束,所以相比动态规划方法,蒙特卡罗方法学习速度慢,学习效率不高。

(3)时间差分方法

在这里插入图片描述
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第4张图片
**时间差分方法(TD)**结合了蒙特卡罗的采样方法(即试验)和动态规划方法的bootstapping(即利用后续状态的值函数估计当前值函数)。

TD目标

TD偏差

2、同策略的Sarsa方法和不同策略的Qlearning方法

(1)Sarsa

Sarsa的行动策略和评估策略都是ε-greedy策略。
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第5张图片

(2)Qlearning

Qlearning的行动策略为ε-greedy策略,目标策略为贪婪策略。
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第6张图片

3、基于python的编程

(1)利用TD方法进行策略评估

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第7张图片
在最内层的FOR循环中,处理的是一个时间序列,即一幕数据,TD更新方程为
在这里插入图片描述

(2)Sarsa算法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第8张图片
Sarsa算法的行动和评估策略都是ε-greedy策 略,对评估策略进⾏评估的方法是TD方法

(3)Qlearning算法

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第9张图片

值函数表示

值函数可以看做一张二维表,一维是状态,一维是动作,以之前的机器人找金币为例
状态空间为[1,2,3,4,5,6,7,8]
动作空间为[‘n’,‘e’,’s’,’w’]
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第10张图片

epsilon贪婪探索策略

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第11张图片

选择动作的贪婪策略

《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第12张图片
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第13张图片

值函数更新

在这里插入图片描述
《深入浅出强化学习原理入门》学习笔记(六)基于时间差分的强化学习方法(重点为Qlearning)_第14张图片

你可能感兴趣的:(机器学习,强化学习,python,算法,人工智能)