DQN(Deep Q-learning)从入门到放弃笔记

DQN中基本的概念:

  • A代表的是Agent的所有动作,a代表的是Agent的一个动作。

  • S代表的是Agent所能感知的世界的所有状态,s代表的是Agent的一个状态。

  • R是一个实数值,代表奖励或惩罚(Reward)。

  • π 代表的是状态State和动作Action存在的映射关系,即策略Policy。如果策略是随机的,policy是根据每个动作概率 π(a|s) 选择动作;如果策略是确定性的,policy则是直接根据状态s选择出动作 a=π(s)

stochastic Policy: π(a|s)=1
deterministic Policy: π(s):SA

  • 定义 Gt 为长期回报期望(Return):表示某个时刻t的状态将具备的回报

Gt=Rt+1+λRt+2+...=k=0λkRt+k+1

  • 状态s的值函数(状态价值函数Value function), Vπ(s) 是策略 π 在状态s长期期望收益。

Vπ(s)=Eπ[Gt|St=s]=Eπ[Rt+1+V(St+1)|St=s]=π(a|s)E[Rt+1+γV(st+1)|St=s]

  • 状态s下采取动作a的Q值为(Action-Value function 动作价值函数), Qπ(s,a) 是策略 π 在状态s下,采取动作a的长期期望收益。

Qπ(s,a)=Eπ[Gt|St=s,At=a]=Eπ[Rt+1+λRt+2+λ2Rt+3+...|s,a]=Es[R+λQπ(s,a)|s,a]

  • Optimal value function 最优价值函数

Q(s,a)=maxπQπ(s,a)=Es[R+λmaxaQ(s,a)|s,a]

1.DQN 从入门到放弃1 DQN与增强学习

摘要:

  • 《Playing Atari with Deep Reinforcement Learning》百度网盘地址

  • 《Human-level Control through Deep Reinforcement Learning》百度网盘地址

  • DeepMind团队和UC Berkerley的Pieter Abbeel团队

  • David Silver的增强学习课程ppt,中文字幕视频以及讲义资料百度云盘地址,视频优酷网播放地址。

2.DQN 从入门到放弃2 增强学习与MDP

3.DQN 从入门到放弃3 价值函数与Bellman方程

4.DQN 从入门到放弃4 动态规划与Q-Learning

5.DQN从入门到放弃5 深度解读DQN算法

6.DQN从入门到放弃6 DQN的各种改进

7.DQN从入门到放弃7 连续控制DQN算法-NAF

8.150行代码实现DQN算法玩CartPole

9.深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

你可能感兴趣的:(增强学习)