百度强化学习7日课程笔记

百度强化学习7日打卡营课程笔记

上周参加了百度的强化学习7日打卡营,科老师的讲解非常有条理,且将代码与知识点结合起来,使得不擅长公式推导的小白得以了解强化学习领域的入门知识以及百度的PaddlePaddle框架,并且有机会自己尝试调试简单的强化学习程序。
现将部分课程笔记整理如下,共5节课。
第一课-强化学习(RL)概况
百度强化学习7日课程笔记_第1张图片
第二课-基于表格型方法求解RL
应用场景:离散状态+离散动作,确定性策略
百度强化学习7日课程笔记_第2张图片
On-policy → SARSA(更新值函数时,下一步策略采用实际策略输出的action)
Off-policy → Q-learning(更新值函数时,下一步策略采用当前Q函数下理论最优的action)
百度强化学习7日课程笔记_第3张图片
第三课-基于神经网络求解RL
应用场景:连续状态+离散动作,确定性策略
相比表格型方法的改进:适用于连续状态或者状态空间较大的场景,对于未训练的状态泛化较好
百度强化学习7日课程笔记_第4张图片
DQN算法
百度强化学习7日课程笔记_第5张图片
第四课-基于策略梯度求解RL
应用场景:连续状态+离散动作(策略参数化),随机策略
相比值函数方法的改进:值函数方法无法处理随机策略
百度强化学习7日课程笔记_第6张图片
Reinforce算法
百度强化学习7日课程笔记_第7张图片
第五课-连续动作空间上求解RL
应用场景:连续状态+连续动作,确定性策略
相比值函数方法的改进:适用于连续动作空间
百度强化学习7日课程笔记_第8张图片
DDPG算法
百度强化学习7日课程笔记_第9张图片
以上是百度强化学习课程的笔记。

附上以前的笔记,虽然字很丑。
百度强化学习7日课程笔记_第10张图片百度强化学习7日课程笔记_第11张图片百度强化学习7日课程笔记_第12张图片百度强化学习7日课程笔记_第13张图片百度强化学习7日课程笔记_第14张图片百度强化学习7日课程笔记_第15张图片百度强化学习7日课程笔记_第16张图片百度强化学习7日课程笔记_第17张图片百度强化学习7日课程笔记_第18张图片百度强化学习7日课程笔记_第19张图片百度强化学习7日课程笔记_第20张图片百度强化学习7日课程笔记_第21张图片百度强化学习7日课程笔记_第22张图片

你可能感兴趣的:(百度强化学习7日课程笔记)