全文结构:
强化学习路线推荐及资料整理
整理时间:2021.1.13
强化学习当然是从理论和实践一起入手
这里结合自己的学习经验和前人的总结,推荐一些书、课程、论文。以及食用方法
建议不分先后,反正都是基础部分,大家怎么舒服怎么来,怎么能看下去怎么来,黑猫白猫抓住耗子就是好猫。
最开始是建议从基础入手,因为直接上代码,即使是跑起来了,你是真的不知道咋回事,意义也不大
入门书籍:《Reinforcement Learning: An Introduction》sutton,v2.2018
书籍配套代码1:[ShangtongZhang版本]
书籍配套代码2:[dennybritz版本]
配套课程:[ DAVID SILVER](可能需要科学上网,备注有国内观看方式)
我开始是只想看3~5章,所以就直接看这里了,一开始啃的英文,幸好有小伙伴一起看,效果还OK,后面实在是啃不动了,就买了译本,互相参考着看。
建议:英文为主,中文为辅慢慢啃,学不下去就跑代码玩玩看
待填坑:视频还没有去看
B站搬运课程:[这里]
课程对应代码:[这里]
知乎社区:[@叶强](这里的基础实践内容讲解很棒~)
这里得前一大部分,都是表格解法,和现在得深度强化学习还有一段距离。
当然你如果想快速从入门到放弃(开玩笑哈,狗头./jpg),应该是快速从代码层面了解下RL
课程地址:[这里]
课程目录:基本上覆盖了RL的入门算法
- 简介
- Q-learning
- Sarsa
- Deep Q Network(DQN)
- Policy Gradient(策略梯度)
- Actor Critic
- Model Based RL
优点:课程简短、简单,讲解清晰,代码可付现度高
缺点:前几节对新手比较好,后面需要学一点基础再来看
莫烦真的好强,呜呜呜,咋啥都会,好烦~~ 啊哈哈
如果你稍微有了些基础,迫切的想上代码练练手,但是又想有本书指导,可以参考这本
《强化学习:原理与Python实现》肖智清 2019.8**简介:**它自己说的啊,我复制的
- 全球第一本配套
TensorFlow 2
代码的强化学习教程书,- 中国第一本配套
TensorFlow 2
代码的纸质算法书,- 现已提供
TensorFlow 2
和PyTorch 1
对照代码书籍对应代码仓库:[这里]
建议:这本书虽然薄且易上手,但是这里的公式和名词表达确实对初学者不大友好,故建议有点基础再看。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nYgXx5FW-1610605625585)(https://imgkr2.cn-bj.ufileos.com/0cd76241-7975-48ec-a9c3-18b1e8425d7c.jpg?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=wYfEC3O0MXKhJ0TpReidxxwHHpc%253D&Expires=1610635434)]
李宏毅老师讲课比较有意思的,可惜视频的清晰度,音效质量不高,但是好在内容质量高,深度强化学习课程里,这应该是很好的资源了,把我之前的疑虑讲的很明白。(长得还挺帅…吸溜~)
B站课程地址:[这里]
课程笔记:[这里]
课程目录:我感觉可能是扮搬运的问题,有点混乱
- 简介(66min)
- Policy Gradient(13min) – 感觉放错了位置
- Learning to Interact with Enviroments(65min) 广泛的速览了一下RL算法们
- Proximal Policy Optimization(PPO)(45min)
- On-policy & Off-policy(41min)
- Q-learning(49min)
- Deep Q-learning 及改进(38+14min)
- Actor Critic
- Sparse Reward 稀疏奖励(30min)
- Imitation Learning 模仿学习(34min)
课程食用方法:建议先把Sutton的前面几章看了,有了MDP、DP、Monte Carlo、TD这些大概的概念,然后再看,感觉会好很多。个人觉得这个适合做复盘学习看。
这里其实还有一些Stanford 、UCB 的课程,但是我没有看,故不好推荐,但是参考链接已经放到文末了,有需自取。
同时个人觉得扔给你一大堆资料,挑起来也是很痛苦的一件事。其实这些资料在知乎一搜就可以找到,自己仅仅做了一个二次整理(当然是在自己有看过的基础上)
当然后面DRL会用到很多机器学习的东西,现在知乎上相关的资料和推荐非常多。就不了(有需要的话,我也可以整理一份)
综述类:简单看看发展状态
算法类:经典算法
[DPG] Deterministic policy gradient algorithms (ICML 2014)
[DDPG] Continuous control with deep reinforcement learning (ICLR 2016)
[PPO] Proximal policy optimization algorithms (2017)
[TRPO] Trust region policy optimization (2017)
[Rainbow] Rainbow_ combining improvements in deep reinforcement learning (AAAI 2017)
这篇文章建议看看,它是对前面多种DQN方法的一个总结,能让你比较省时全面的综合下自己前面学的东西
关于rainbow的一些补充
- 详细概述及资料补充:[Rainbow: 融合DQN六种改进的深度强化学习方法!]
- Pytorch手把手实现:Rainbow is all you need!
幸福的孩子有学长给下载论文,我是幸福的孩子(感谢凌霄和蒙轩学长)
这里分享下这份幸福,不想自己去找的同学可以下载
链接:https://pan.baidu.com/s/1fu7huZ-lhX2HDAekuVkK5Q 提取码:ygpl
坦白说,我也只是刚刚入门阶段,不敢提进阶该怎样怎样,但是这里搬运一个有多年RL研究工作的大佬的建议吧,@Flood Sung 感兴趣的同学可以看看。
依我看来,我是觉得有这么几部分需要做吧
这里我大家可以参考上面大佬的博客建议,初学者不敢瞎说。
PS: 如果买正版《强化学习》译本,博文视点还配了一套国内的课程(国内RL大佬的一个10多天的讲座),不适合入门但是作为有基础的同学的知识面铺垫还是不错的。内容大概如下。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QPobTeGm-1610605625586)(https://imgkr2.cn-bj.ufileos.com/f51b7c89-2845-43e6-8738-7ed990d0d4f6.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=tMUXt10810PjopqFB1J4i1EESQI%253D&Expires=1610675558)]
讲师团队多为国内行业的大牛
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u6eLbICz-1610605625587)(https://imgkr2.cn-bj.ufileos.com/0eb3c164-ba58-456b-9682-334c5844affd.png?UCloudPublicKey=TOKEN_8d8b72be-579a-4e83-bfd0-5f6ce1546f13&Signature=060vhCpxF3sBxTaoj%252FMqQ9T7OQU%253D&Expires=1610675594)]
上面的学习资料已经非常多了,得益于现在的互联网环境,资源真的是很容易获得,且数量、质量可观,所以,能否静下心来慢慢去消化这些东西,才是学习路上的拦路虎。
这里再推荐一个OpenAI开源学习资源:Spinning Up (英文阅读能力强的同学可以用来做入门资料)
大概看了看,真的很惊喜,好全面,英文不熟的同学可以网页打开,直接翻译速览。
例如我抄来的一些近年发展的方向
Large Scale Deep Reinforcement Learning
Multi-Agent Deep Reinforcement Learning
Offline Deep Reinforcement Learning
Diversity,Curiosity,self-supervised DRL
Meta Reinforcement Learning
还有一些大佬会整理某一个方向的最新论文,我下一步想了解多智能体部分,故找到一个定期维护的网站,其他方向肯定也有人会做,大家可以找找(如果没有,这是好事,恭喜你可能将要拥有一个高Start的项目)
Paper Collection of Multi-Agent Reinforcement Learning (MARL)
最后还是想聊聊大家关心的强化学习实用情况,因为事关前途和饭碗
其实最直接的就是看什么地方能做强化学习的落地。现在很多公司都在做相应的尝试。公司招聘的岗位最能体现它的应用点。下面大家可以参考下字节跳动@Flood Sung的招聘信息。字节强化学习实习招聘通道
大概梳理下有如下几个方向:
- 游戏 orAGI(通用人工智能)
- 推荐,广告,用户增长 or和人直接交互的agent
- 机器人抓取及导航相关的DRL 研究
- 底层系统架构,大规模的深度强化学习系统
现在还有很多公司在做这件事情。
比如游戏这块:
启元世界、深极智能、腾讯游戏,腾讯的AI lab、网易游戏,广州的互娱和杭州的伏羲实验室
推荐系统: 阿里、美团、爱奇艺、OPPO、敦煌网
自动驾驶: Momenta、格林深瞳、中智行、三星电子研究院、华在南京的图灵研究院
订单分配、图像生成等领域也有公司布局落地
引自@中原一点红
其实强化学习未来怎样,谁都不好说,所以更多的还是需要一点喜欢和信仰吧,机器人一直都被称为屠龙术,但是近年无人机、无人车、AGV智能工厂都看到了机器人成功落地的影子。可以看到,无论看似多惨淡前景的行业,总会有人默默前行,暗暗积累,耐心等待属于它的时代来临。何况当下这个行业并不惨淡。
从我的角度来看,学习最新知识,掌握基础计算机知识,一时半会总归不会被Out,怕的是自己什么都一知半解,一瓶水不满、半瓶水晃荡(说的好像就是我呢…好难过)
OK~ 就这样~ 晚安~
啊对了
如果觉得自己学成了?可以来份强化学习面试测一波 哈哈~
《深度强化学习》面试题汇总
参考资料:
【知乎:@董家欢】 David Silver强化学习课程相关资料汇总
【知乎:@盛夏的果核】 强化学习的学习路线?
【Github:@wwxFromTju】强化学习从入门到放弃的资料
其他的引用都在文中提及,小白一直,水平有限,若有纰漏请私聊我更改~ 若有侵权,请联系我删除哈~
给自己的公众号打个广告~
感兴趣的同学希望能一起学习讨论