论文阅读笔记 GLM: General Language Model Pretrainingwith Autoregressive Blank Infilling

2022-Du-GLM General Language Model Pretraining with Autoregressive Blank Infilling

Abstract

GLM基于自回归填空的通用语言模型,可比预训练自编码模型BERT、自回归模型GPT、编码-解码模型T5效果好。

自回归填空架构

微调GLM

讨论与分析

比较GLM与其他预训练模型的差异

与BERT比较

与XLNet比较

与T5比较

与UniLM比较

实验

预训练

多任务预训练

序列到序列

结论

GLM是通用的预训练架构以供NLunderstanding和generation生成,可由自回归模型解决,填空混合了注意力masks和novel 2D位置编码,实验上GLM的表现更加出色,并且可以有效地在不同任务下共享参数。

设置

超参数

你可能感兴趣的:(论文阅读,笔记,语言模型)