强化学习系列 - 刘建平Pinard

强化学习(一)模型基础

强化学习(二)马尔科夫决策过程(MDP)

强化学习(三)用动态规划(DP)求解

强化学习(四)用蒙特卡罗法(MC)求解

强化学习(五)用时序差分法(TD)求解

强化学习(六)时序差分在线控制算法SARSA

强化学习(七)时序差分离线控制算法Q-Learning

强化学习(八)价值函数的近似表示与Deep Q-Learning

强化学习(九)Deep Q-Learning进阶之Nature DQN

强化学习(十)Double DQN (DDQN)

强化学习(十一) Prioritized Replay DQN

强化学习(十二) Dueling DQN

强化学习(十三) 策略梯度(Policy Gradient)

强化学习(十四) Actor-Critic

强化学习(十五) A3C

强化学习(十六) 深度确定性策略梯度(DDPG)

强化学习(十七) 基于模型的强化学习与Dyna算法框架

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

强化学习(十九) AlphaGo Zero强化学习原理

 

参考文献:

1. 刘建平Pinard - 博客园 https://www.cnblogs.com/pinard/

2. ljpzzz (刘建平(Pinard Liu)) https://github.com/ljpzzz/machinelearning

你可能感兴趣的:(算法,强化学习,机器学习,python,人工智能)