大模型讲习班丨智源研究员张正:FlagData大模型数据处理工具集

大模型讲习班丨智源研究员张正:FlagData大模型数据处理工具集_第1张图片

人工智能研究与应用范式正经历一场剧变,越来越多的顶级团队和杰出人才纷纷加入这一变革浪潮。作为AI大模型科研先锋,智源研究院携手一批卓越的学者与工程师,致力于将尖端技术与经验传授给有潜力的学习者,通过高效的学习方式,让更多人能迅速融入这一重要的历史进程,提升中国在这一领域的人才数量和质量。

大模型前沿技术讲习班第一季第四期(S01E04)将在 2023年10月28日至29日于智源大厦(北京市海淀区成府路150号)召开,本期主题聚焦于“智源FlagOpen大模型开源体系与应用”。本次讲习班将由智源研究院9位研究员担纲介绍 FlagOpen 的近期进展以及落地实践。

其中,10月29日上午09:30-10:30智源研究员张正将讲授《FlagData大模型数据处理工具集》。

专家介绍

大模型讲习班丨智源研究员张正:FlagData大模型数据处理工具集_第2张图片

张正,北京智源人工智能研究院数据研究组负责人,清华大学博士,研究领域为自然语言处理、大模型和对话系统,曾主持国家重点研发计划课题和国家自然科学基金项目,参与组织了FlagData的开发工作。

课程内容

在大模型时代,训练数据的重要性被提升到了一个新的高度。训练数据是模型能力的重要来源,提升数据质量对于提升大模型的性能具有重要的意义。当前在大模型开发的过程中,对海量的预训练数据进行分析、清洗和过滤已经成为一项重要的工作内容。FlagData大模型数据处理工具集,提供了数据标注、分析、清洗等流程在内的全流程工具,能够为大模型开发中的数据工作提供帮助。

课程提纲

  1. 大模型时代的数据处理;

  2. 数据处理工作中的难点;

  3. FlagData工具集;

  4. 总结与展望。

大模型讲习班丨智源研究员张正:FlagData大模型数据处理工具集_第3张图片

欢迎扫码查看更多精彩议题和了解报名详情

你可能感兴趣的:(大模型讲习班丨智源研究员张正:FlagData大模型数据处理工具集)