深度强化学习_参考资料

深度强化学习_参考资料

  • 写在前面
  • 会议&论文
  • 优秀的人啊~
  • 博客
  • 视频
  • DRL的问题与展望
  • 其他应用场景
  • 其他知识点

写在前面

  • 强化学习资料汇总——视频、书籍、教程、PPT、算法、环境、框架、论文、会议期刊、公众号、博客、官网
  • 增强学习在导航中的应用——多篇论文
  • 强化学习自主导航——论文
  • 最前沿:视觉导航(Visual Navigation),让人惊讶的进展——三篇论文
  • 强化学习_知乎专栏

会议&论文

会议&期刊   IEEE & SCI & EI
ICLR
ICML
NeurIPS
AAAI
CVPR
机器人领域几大国际会议、机器人学领域的顶级期刊和会议:ICRA、IROS、ROBIO、RSS。
机器人领域下一个顶会:CoRL
机器学习的几大顶会中,IJCAI和AAAI大而全、CVPR、ICCV专注计算机视觉、NIPS和ICML两个会关注机器学习,但前者偏向计算神经科学、后者标准严格,对学术功底要求较高。机器人领域几大顶会中,ICRA偏向自动化应用,IROS注重前沿研究,但涉及范围广泛,RSS偏重于机器人技术、算法和系统,对于处于机器人与机器学习的交叉领域的研究者来说,也需要一个全新的会议来展示和交流自己的研究成果。ROBIO主要在中国举办。
控制领域顶级期刊——期刊比会议重要
控制领域顶会:American Control Conference (ACC) ,较全面地du反映自动控制各领域中理论与应用zhi的最新研究成果;IEEE Conference on Decision and Control(CDC) ,侧重于理论研究;International Federation of Automatic Control (IFAC),控制理论与应用发展新成果和新趋势,内容广泛

  • 知乎专栏:强化学习前沿
  • 强化学习论文合集
  • 强化学习论文汇总

优秀的人啊~

  • Github:marooncn——研究端到端的运动规划,包括输入RGB图像实现机器人导航
  • Github:莫烦的强化学习代码
  • 知乎:启人zhr、CSDN: 启人zhr——研究强化学习+calar
  • 知乎:Cruiser——研究机器人导航
  • 知乎:黄浴——自动驾驶科学家/工程师
  • CSDN: mmc2015——北大信科学院,Silver视频+sutton书
  • CSDN:PaperWeekly——推荐、解读、讨论和报道人工智能前沿论文成果的学术平台
  • CSDN:Adam坤——DRL论文翻译
  • CSDN:猪蒙索洛夫——DRL论文翻译
  • CSDN: J.Q.Wang@2048——深度强化学习实验室,RL算法详解
  • 知乎:张斯俊——专栏:白话强化学习,通俗易懂的入门路径
  • CSDN: xyt_369587353——RL算法详解
  • CSDN: 微丶念(小矿工)——David Silver-强化学习笔记
  • CSDN:Bubbliiiing——强化学习算法代码实现

博客

  • 深度学习-刘建平Pinard
  • 深度强化学习-刘建平Pinard
  • github——一个强化学习教程与代码实现(迷宫)
  • CSDN: songrotek——研究过RL,目前不更新
  • CSDN: jessie_weiqing——李宏毅深度强化学习笔记
  • 知乎:叶强——David Silver强化学习公开课中文讲解及实践
  • CSDN: 及达尖犁头鳐——《白话强化学习与PyTorch》学习笔记

视频

  • 【B站视频】David Silver深度强化算法学习 +项目讲解
  • 【视频】莫烦python

DRL的问题与展望

  • DRL的一些问题和展望
    • 问题深度强化学习_参考资料_第1张图片深度强化学习_参考资料_第2张图片
    • 展望深度强化学习_参考资料_第3张图片
  • 重新审视DRL的研究与应用——问题可能不是出在是否基于模型,并总结了一些值得研究的方向
    深度强化学习_参考资料_第4张图片深度强化学习_参考资料_第5张图片深度强化学习_参考资料_第6张图片深度强化学习_参考资料_第7张图片

其他应用场景

  • 推荐算法
  • 机器人领域

其他知识点

  • on-policy和off-policy的区别

  • value-based和policy-based算法比较

  • DQN详解——附代码

  • 【知乎】DQN的缺陷及改进

  • 【CSDN】DQN改进-从 DQN、DDPG、NAF 到 A3C

  • DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

    • David Silver是DeepMind的主脑人物之一,他的博士导师是Richard Sutton,所以是非常受Sutton的RL价值观影响,Sutton推崇的是正统的Value-based RL。所以搞出了Deep Q-learning, DDPG之类的东西。至于说后来的A3C,已经是不得不屈从于Policy-based RL的高效率。
    • OpenAI背后的派别是Berkeley帮,主要工作是围绕Pieter Abbeel以及他的两位superstar博士生Sergey Levine和John Schulman。他们极度推崇Policy-based RL。用过RL的同学应该知道,policy-based RL以及衍生出的model-based RL比value-based RL效率高一个量级,这跟Abbeel和Sergey的机器人背景关系非常大。在机器人的应用中,sample-efficiency非常重要。
    • 另外,这跟两家公司的定位也有关系,比如说DeepMind着眼于Go和Starcraft这样的AI明珠问题,可能确实Value-based RL+search的办法更work。OpenAI强调Open,大众普及RL,着眼于一些机器人应用和相对小规模的RL问题,Policy-based RL以其优秀的效率和稳定性更胜一筹。

你可能感兴趣的:(强化学习,强化学习,深度学习,深度强化学习)