大模型讲习班丨第四范式黄世宇:强化学习的发展历程与基于人类反馈的强化学习...

大模型讲习班丨第四范式黄世宇:强化学习的发展历程与基于人类反馈的强化学习..._第1张图片

人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮。作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高效的学习方式,让更多人能迅速融入这一重要的历史进程,提升中国在这一领域的人才数量和质量。

大模型前沿技术讲习班第一季第三期(S01E03)将在2023年8月26-27日线下召开,我们邀请了来自顶尖科研领域的权威专家联合授课。授课专家将从多领域交叉视角诠释当前大模型关键技术与前沿进展,旨在帮助学员们开阔科研视野,掌握前沿动向并增强实践能力。

其中,8月27日上午09:00-12:00第四范式强化学习科学家黄世宇将讲授《强化学习的发展历程与基于人类反馈的强化学习》。

专家介绍

大模型讲习班丨第四范式黄世宇:强化学习的发展历程与基于人类反馈的强化学习..._第2张图片

黄世宇,第四范式强化学习科学家,开源强化学习OpenRL Lab负责人。本科与博士均毕业于清华大学计算机系,导师是朱军和陈挺教授,本科期间在CMU交换,导师为Deva Ramanan教授。主要研究方向为强化学习,多智能体强化学习,分布式强化学习。曾在ICLR、CVPR、AAAI、NeurIPS, Nature Machine Intelligence, ICML, AAMAS, Pattern Recognition等会议和期刊发表多篇学术论文。其领导开发的TiZero谷歌足球游戏智能体曾在及第平台上取得排名第一的成绩。黄世宇也曾在腾讯AI Lab、华为诺亚、商汤、瑞莱智慧等工作。

课程内容

强化学习是机器学习三大训练范式之一,也是实现通用人工智能最有希望的途径。过去,基于深度学习和强化学习结合的深度强化学习在游戏AI,内容生成,机器人控制以及工业优化领域都发挥着重要的作用。最近,OpenAI结合深度强化学习和人类反馈的技术完成了大语言模型ChatGPT的最终训练,取得了超过以往基于监督学习的自然语言对话性能。我们希望通过对强化学习发展历程和相关基础知识的介绍,让更多同学接触和认识强化学习这一强大的训练工具,也进一步学习如何基于人类反馈的强化学习的学习来提升大语言模型的性能。

课程提纲

  1. 强化学习的发展历程和背景介绍;

  2. 强化学习的基础知识和前沿发展;

  3. 基于人类反馈的强化学习的相关技术介绍;

  4. 通用强化学习框架OpenRL的使用介绍。

学员收益

  1. 学习到强化学习的基础知识和概念;

  2. 学习到基于人类反馈的强化学习的相关技术;

  3. 掌握通用强化学习框架OpenRL的使用。

大模型讲习班丨第四范式黄世宇:强化学习的发展历程与基于人类反馈的强化学习..._第3张图片

欢迎扫码查看更多精彩议题和了解报名详情

你可能感兴趣的:(大模型讲习班丨第四范式黄世宇:强化学习的发展历程与基于人类反馈的强化学习...)