【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数

@[TOC](Q-learning (off-policy): 用来训练最优动作价值函数)

本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第1张图片

  • 价值网络 Q π ( s , a ; θ ) Q_{\pi}(s, a; \theta) Qπ(s,a;θ)是动作价值函数 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)的近似,我们用Saras更新价值网络。

【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第2张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第3张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第4张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第5张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第6张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第7张图片

  • TD target 部分基于真实观测,比左边纯粹猜测更加靠谱,因此我们鼓励猜测向TD target 靠近

【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第8张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第9张图片

Q-learning: DQN version

【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第10张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第11张图片

【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第12张图片
【强化学习-08】Q-learning (off-policy): 用来训练最优动作价值函数_第13张图片

你可能感兴趣的:(RL+OR,机器学习+强化学习-笔记,机器学习,深度学习,神经网络,强化学习基本概念)