NLP-预训练模型-2019-NLU:XLNet【 在Transformer-XL的基础上:①“排列组合LM”取代Bert中的“掩码LM”解决其弊端;②使用“双流注意力机制”解决位置信息】
预训练模型(Pretrainedmodel):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT,GPT,roBERTa,transformer-