语言模型的预训练

参考自:https://zhuanlan.zhihu.com/p/49271699

 

ELMO:得到WE后过BiLSTM调整WE的表达

优点:一词多义

缺点:LSTM特征提取不好

GPT:预训练+调参

优点:采用transformer来提取特征

缺点:变成双向的话会更好吧

Bert:双向的transformer

优点;一点是特征抽取器采用Transformer;第二点是预训练的时候采用双向语言模型。

 

你可能感兴趣的:(语言模型的预训练)