模型介绍:UNILM

paper :

《Unified Language Model Pre-training for Natural Language Understanding and Generation》

模型名称:UNILM (UNIfied pre-trained Language Model ,统一预训练语言模型)

模型介绍:

模型使用的是transformer encoder架构,采用三种不同的语言模型来预训练

预训练任务:MLM

三种不同的语言模型,通过不同的attention来实现

unidirectional LM:单向语言模型,包括Left-to-Right LM 和 Right-to-Left LM

bidirectional LM:双向语言模型

sequence-to-sequence LM:seq2seq 语言模型

模型介绍:UNILM_第1张图片

我们来讲讲这个mask是如何理解的,如下图,白色代表可以关注到,黑色代表被遮住。第一行代表第一个token只能关注到他自己本身,第二行代表第二个token可以关注到他本身以及他左边的token。以此类推。这就是L2R LM。其他同理

模型介绍:UNILM_第2张图片

下游任务:NLU(natural language understanding) 和 NLG (natural language generation)

你可能感兴趣的:(NLP,transformer,深度学习,pytorch)