强化学习知识总结(一)

本篇主要是对这段时间以来我在科学网上发的一些强化学习相关的文章进行一个大汇总(Sutton书1-8章内容)。作为对强化学习Tabular方法的一个简单指导性的目录,本篇也会提供之前讨论过的强化学习中的经典问题实现的代码与相关的图表分析的源文件。

 

K-level

相关文章:

  • 【RL系列】Multi-Armed Bandit问题笔记

  • 【RL系列】Multi-Armed Bandit 笔记补充(一)

  • 【RL系列】Multi-Armed Bandit笔记补充(二)—— UCB策略

  • 【RL系列】Multi-Armed Bandit问题笔记——UCB策略实现

  • 【RL系列】Multi-Armed Bandit笔记——Softmax选择策略

 

Markov 

实例:

1. DP-Programming - Bandit问题

2. DP-Programming - GridWorld

3. Recycling Robot

4. Jack‘s Rental Car

5. Gambler's Problem

相关文章:

  • 【RL系列】马尔可夫决策过程与动态编程笔记

  • 【RL系列】马尔可夫决策过程中状态价值函数的一般形式

  • 【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价

  • 【RL系列】马尔可夫决策过程——Jack’s Car Rental

 

Monte Carlo

实例:

1. Soap Bubble

2. Black Jack

3. Infinite Variance

4. Monty Hall Problem

5. Race Track

相关文章:

  • 【RL系列】蒙特卡罗方法——Soap Bubble

  • 【RL系列】从蒙特卡罗方法正式引入强化学习

  • 【RL系列】强化学习之On-Policy与Off-Policy

 

TD Methods

实例:

1. Cliff GridWorld

2. Random Walk

3. Windy GridWorld

相关文章:

  • 【RL系列】SARSA算法的基本结构

  • 【RL系列】Q-Learning与SARSA算法的比较

  • 【RL系列】Monte Carlo与TD算法的结合,n-step TD算法

 

Room Problem & Maze Problem

实例:

1. Room Problem

2. Maze Berrier

3. Dyna-Q

相关文章:

  • 【Q-learning系列】解决“房间问题”的一个通用方法

  • 【Q-learning系列】从一个简单的寻路问题深入Q-learning

 

相关实例代码(Matlab):

链接:https://pan.baidu.com/s/176TmqhKAoi_rsrvDB9b91A 密码:6hv5

你可能感兴趣的:(强化学习知识总结(一))