百度强化学习7日打卡训练营心得感悟

百度强化学习7日打卡训练营心得感悟

    • 学习课程的起因
    • 本次学到的知识及课程内容
    • 课后感悟
    • 笔记备份(附大佬链接以备复习之用)

学习课程的起因

去年10月份实习的时候,接到了目标检测的项目,使用了百度EasyDL的离线SDK模型,后来互联网大会看到了飞桨平台发布,准备学习,今年4月份看到了AI+Python的课程,加入课程但是因为做毕业设计忙不过来,就没有学习,这次刚好答辩完交了毕设论文,看到开课强化学习,同学毕设有做强化学习DQN的,就像学一下,毕设做的人脸识别,有一点深度学习的基础,所以毫不犹豫的加入课程,跟着科科老师学习强化学习,为以后的学习和工作打下基础。

本次学到的知识及课程内容

课程学到了Parl框架的使用,以及一些主流算法的项目复现,通过看直播课讲解,做作业补全代码和调参等过程,对基于表格型方法、基于神经网络方法、基于策略梯度和基于连续动作几个课程的算法有了一些了解,学到了很多知识,为以后的学习打下了基础。
百度强化学习7日打卡训练营心得感悟_第1张图片
1.课程一:强化学习初印象
主要内容:(1)强化学习与深度学习、机器学习等的关系;(2)RL的核心思想;(3)强化学习的分类;(4)强化学习的框架 等。
作业:搭建环境运行Parl
2.课程二:基于表格型方法求解RL
主要内容:(1)MDP四元组和Q表格;(2)强化的概念和TD更新;(3)迷宫游戏(SARS算法);(4)迷宫游戏(Q-learning算法)。
作业:迷宫游戏(SARSA算法/Q-learning算法)
3.课程三:基于神经网络方法求解RL
主要内容:(1)函数逼近与神经网络 (2) DQN算法原理及代码和结果(CartPole游戏)。
作业:DQN算法解决MountainCar游戏
4.课程四:基于策略梯度方法求解RL
主要内容:(1)随即策略与策略梯度;(2)PG算法及代码和结果(CartPole游戏)
作业:PG算法解决Pong游戏
5.课程五:基于连续动作空间方法求解RL
主要内容:(1)连续动作空间;(2)DDPG算法及代码和结果(CartPole游戏)
作业:四轴飞行器悬浮

课后感悟

通过跟着科科老师的课程讲解,对强化学习有了初步的认识,也对Ai Studio开发环境和paddlepaddle框架有了一定的了解,每天赠送的算力卡太香了,本地装上paddle框架后也会继续使用Ai Studio开发。
经过这次课程,代表着对强化学习的研究已经上路,为以后的学习打下了坚实的基础,看到老师举得各种例子,知道了强化学习的方向很广泛,以后也会争取在工作中用到强化学习和parl框架。已经把parl分享给同学和舍友。学习群的氛围很好,得到了很多帮助,希望以后能和同学们再次参加下一次的训练营课程。
感谢同学们,感谢芮芮班主任,感谢科科老师!

笔记备份(附大佬链接以备复习之用)

接下来的时间也会继续看课程回放,记笔记并分享出来,输出才能更好的理解知识,现在这里备份一下大佬们的笔记,用来接下来的复习和学习。
PS:已经关注各位大佬的主页,各位大佬的主页也有其他课节的笔记。
Tiny Tony 伯克利大佬的笔记分享
三岁学编程大佬的笔记分享1
三岁学编程大佬的笔记分享2
三岁学编程大佬的笔记分享3
三岁学编程大佬的笔记分享4
三岁学编程大佬的笔记分享5
作者:AItrust
作者:烟笼寒水月笼沙。
作者:Mr.郑先生_

你可能感兴趣的:(百度强化学习7日打卡训练营心得感悟)