预训练语言模型

模型参数不再是随机初始化的,而是通过一些任务进行预先训练,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。

从模型的角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练

从数据的角度:将训练任务拆解成共性学习和特性学习两个步骤

预训练语言模型_第1张图片

一种是微调,一种是冻结。

预训练语言模型_第2张图片

 

第一代预训练模型专注于word embedding的学习(word2vec),神经网络本身关于特定任务的部分参数并不是重点。其特点是context-free,也即word embedding,每个token的表示与上下文无关,比如“苹果”这个词在分别表示水果和公司时,对应的word embedding是同样的。

第二代预训练模型以context-aware为核心特征,也就是说“苹果”这个词在分别表示水果和公司时,对应output是不一样的,其中具有代表性的有ELMo[2], GPT[3], BERT等。

需要提一点的是,早期的PTMs研究者们在模型结构上做的尝试比较多,比如ELMo使用了双向LSTM。然而在Transformer出现后,研究者们研究的重点就从模型结构转移到了训练策略上。比如GPT和BERT都是基于Transformer结构的: GPT基于Transformer decoder,而BERT基于Transformer encoder。因此,本篇文章也是侧重于解释不同的训练策略。

 预训练语言模型_第3张图片

预训练语言模型_第4张图片

预训练语言模型_第5张图片

 预训练语言模型_第6张图片

预训练语言模型_第7张图片

预训练语言模型_第8张图片

预训练语言模型_第9张图片

预训练语言模型_第10张图片

你可能感兴趣的:(NLP,nlp)