DeepMind联合UCL,推出2021强化学习最新课程

点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:机器之心

985人工智能博士笔记推荐

周志华《机器学习》手推笔记正式开源!附pdf下载链接,Github2500星!

DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程,目前已全部上线。

DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。

近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授,旨在为学生提供对现代强化学习的全面介绍。

DeepMind联合UCL,推出2021强化学习最新课程_第1张图片

课程主页:https://deepmind.com/learning-resources/reinforcement-learning-series-2021

课程介绍

本次课程共包括 13 节,涵盖了顺序决策问题中强化学习和规划的基础知识,并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题,包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双 Q 学习、SARSA)、深度强化学习等,还探讨了一些更高级的主题,包括 off-policy 学习、多步更新和资格迹(eligibility traces),以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件。

下面我们来看一下各节课程的具体内容。

第 1 讲 强化学习简介:DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容,然后讲解了强化学习与 AI 的关系。

DeepMind联合UCL,推出2021强化学习最新课程_第2张图片

第 2 讲 探索与控制:Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。

第 3 讲 MDP 和动态规划:DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略。

DeepMind联合UCL,推出2021强化学习最新课程_第3张图片

第 4 讲 动态规划算法的理论基础:Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理(contraction mapping)。

第 5 讲 无模型预测:Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。

第 6 讲 无模型控制:Hado van Hasselt 讲解了用于策略改进的预测算法,以产生可以从采样经验中学习良好行为策略的算法。

第 7 讲 函数近似:Hado van Hasselt 讲解了如何将深度学习与强化学习结合,以实现「深度强化学习」。

第 8 讲 规划与模型:DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型,包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。

DeepMind联合UCL,推出2021强化学习最新课程_第4张图片

第 9 讲 策略梯度和 Actor-Critic 方法:Hado van Hasselt 讲述了可以直接学习策略的策略算法,并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法。

第 10 讲 近似动态规划:Diana Borsa 讲解了近似动态规划算法,探讨了如何从理论的角度分析近似算法的性能。

第 11 讲 多步和 off-policy:Hado van Hasselt 讲解了多步和 off-policy 算法,包括多种减小方差的方法。

第 12 讲 深度强化学习 #1:Matteo Hessel 讲解了深度强化学习的实际要求和具体算法,以及如何使用自动微分(Jax)来实现。

第 13 讲 深度强化学习 #2:Matteo Hessel 讲解了通用价值函数(general value functions)、基于 GVF 的辅助任务,并进一步讲解了如何处理算法中的扩展问题。

DeepMind 研究者亲自授课

该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

DeepMind联合UCL,推出2021强化学习最新课程_第5张图片

Hado van Hasselt 是 DeepMind 的一名研究科学家,也是伦敦大学学院(UCL)的荣誉教授。Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学,他的研究兴趣包括人工智能、机器学习、深度学习,并重点研究强化学习。

Diana Borsa

DeepMind联合UCL,推出2021强化学习最新课程_第6张图片

Diana Borsa 是 DeepMind 的研究科学家,也是 UCL 的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能(AGI),涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。

Matteo Hessel

DeepMind联合UCL,推出2021强化学习最新课程_第7张图片

Matteo Hessel 是 DeepMind 的一位研究工程师,也是 UCL 的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文,这些论文的引用次数超过 4000 次,并获得了 2 项注册专利。

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

DeepMind联合UCL,推出2021强化学习最新课程_第8张图片

王博的公众号,欢迎关注,干货多多

手推笔记:

思维导图  |  “模型评估与选择”  |  “线性模型”  |  “决策树”  |  “神经网络”  |  支持向量机(上)  |  支持向量机(下)  |  贝叶斯分类(上)  |  贝叶斯分类(下)  |  集成学习(上)  |  集成学习(下)  |  聚类  |  降维与度量学习  |  稀疏学习  |  计算学习理论  |  半监督学习  |  概率图模型  |  规则学习

增长见识:

博士毕业去高校难度大吗?  |  研读论文有哪些经验之谈?  |  聊聊跳槽这件事儿  |  聊聊互联网工资收入的组成  |  机器学习硕士、博士如何自救?  |  聊聊Top2计算机博士2021年就业选择  |  非科班出身怎么转行计算机?  |  有哪些相见恨晚的科研经验?  |  经验 | 计算机专业科班出身如何提高自己编程能力?  |  博士如何高效率阅读文献  |  有哪些越早知道越好的人生经验?  |  

其他学习笔记:

PyTorch张量Tensor  |  卷积神经网络CNN的架构  |  深度学习语义分割  |  深入理解Transformer  |  Scaled-YOLOv4!  |  PyTorch安装及入门  |  PyTorch神经网络箱  |  Numpy基础  |  10篇图像分类  |  CVPR 2020目标检测  |  神经网络的可视化解释  |  YOLOv4全文解读与翻译总结  | 

c06553f3eb60a8504cd217ddf96cd33a.gif

点分享

c865f11a27ed90c74c31c189d4f5be25.gif

点收藏

2696d60f4287af2a5277ab66044eaf75.gif

点点赞

2ce7598676ea59c1828d6f77764f19b1.gif

点在看

你可能感兴趣的:(算法,人工智能,神经网络,机器学习,深度学习)