ADL会议是中国计算机协会定期组织的前沿讲习班,会邀请计算机各细分领域的领军人物针对当前领域的前沿知识进行一系列的介绍。本期我将概括介绍ADL第129期的具体内容,具体内容还请看官移步ADL官网查看会议总结。
ADL1291历时3天,共6个报告。报告讲者记录如下,涉及主题主要包括:自然语言处理的模型发展介绍(崔一鸣),一个微调工具(Delta Tuning),prompt learning(刘鹏飞),自然语言模型的实际应用(杨红霞),机器翻译模型(李磊),模型压缩和加速(侯璐/尹伊淳)。
讲者 | 方向 | 报告题目 |
---|---|---|
崔一鸣 | 科大讯飞 | 面向自然语言理解的预训练模型 |
刘知远/丁宁 | 清华 | Delta Tuning: Parameter-efficient Adaption of Big Models |
刘鹏飞 | CMU | The Foundations, Applications and Research trend of Prompt Learning |
杨红霞 | 达摩院 | 超大规模多模态预训练模型建设与其产业化落地 |
李磊 | 加州大学圣巴巴拉分校 | 机器翻译预训练方法 |
侯璐/尹伊淳 | 华为 | 预训练语言模型的压缩与加速 |
用CoVe、ELMo 这种简单的基于上下文的语言编码模型开头,重点介绍了BERT与GPT模型及其变种,最后提了一点知识蒸馏和模型裁剪。
总结:
报告分为2个部分,前半部分是prompt learning的定义和背景,后半部分是介绍delta tuning。个人看法:后半部分比较适合上手实践学习。
总结:
是上一个汇报的延伸,更侧重理论上和趋势上的介绍,重点介绍prompt learning的定义,高层次地总结了模型训练的四个范式:特征工程,结构工程,目标工程和启发工程,NLP模型的发展过程则由这四个范式划分成四个阶段。
总结:
以阿里M6为例子介绍阿里在自然语言模型应用方面做出的尝试,提出自然语言模型在应用层面上更像是一个系统问题:模型太大放不到一块卡上,需要进行多卡通信;负载失衡,只有少数节点发挥大部分作用。Pathway google 是一个很有希望解决上述问题的系统。
总结:
将机器翻译模型分成单语言/多语言的机器翻译模型,以及同声传译模型等,分别介绍每部分的实现模型。
总结:
模型压缩主要包括剪枝,量化,知识蒸馏三个方法,这些方法大都使用在BERT模型上(GPT直到了3才得到广泛关注,大量的工作都在BERT这边)。
总结:
ADL129的视频尚未上传,可能过几天会上传吧。 ↩︎