GLM General Language Model Pretraining with Autoregressive Blank Infilling

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址 [2103.10360v2] GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arxiv.org)

ACL 2022的一篇预训练模型改进的论文,改进方向为统一NLU和NLG的预训练模型

作者来自 清华,智源,MIT

看名字就感觉很大,GLM:通用语言模型,这比ULM google的统一语言模型还要能吹,摘要也说的很大,说自己模型在NLU和NLG都已经超过bert,GPT,t5等模型了,并适合各种下游任务。

主要内容

GLM其实也沿用T5对于NLP任务的理解,都转换为text2text任务,但基于t5进行了两点改进:span shuffling 和2D positional encoding

GLM General Language Model Pretraining with Autoregressive Blank Infilling_第1张图片

上述模型图也很容易理解,将t5的span mask,然后预测span内容时,使用类似GPT自回归的方式进行生成,将mask的部分,接在后面,添加[START]标签,并最后尝试预测[END]标签来预测结束位置。self-attention mask类似于ULM中seq2seq部分的attention矩阵,即前面MLM部分是自编码的attention,后面LM部分是自回归的attention。同时在position embedding时,为了清洗表示自编码任务和自回归任务,使用了2D的position embeding完成该任务。

上述任务进行span mask的自回归生成,对NLU任务有很好的支持,为了进一步同时解决NLG任务,将span换为sentence-level和document-level不同长度的自回归生成任务。

fine-tuning 过程类似文本分类任务可以使用模板promt方法进行转换为text2text任务,其他也可以直接在无条件生成和有条件生成上进行fine-tune

实验:作者在在superGLUE和CNN daily和XSum数据上进行对比实验。在superGLUE上进行消融实验。

实验。在superGLUE上进行消融实验。

评价:整个模型还是很大的,不过可能受限于实验室的人力,对比实验工作量有些不够,就说自己在NLG上比其他NLG模型更好,有些不充分,整体在其他NLU任务除了SuperGLUE也没有进行实验,创新点还是有的,但模型在实际效果上能否超过经典模型还需要进行实验尝试。

你可能感兴趣的:(论文笔记,语言模型,深度学习,机器学习)