BERT-wwm、RoBERTa-wwm、SpanBERT、ERNIE2

BERT-wwm、RoBERTa、SpanBERT、ERNIE2

BERT-wwm/RoBERTa-wwm

wwm是Whole Word Masking(对全词进行Mask)。简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在全词Mask中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,即全词Mask。
论文下载添加链接描述
例如:BERT-wwm、RoBERTa-wwm、SpanBERT、ERNIE2_第1张图片
BERT-wwm、RoBERTa-wwm、SpanBERT、ERNIE2_第2张图片
训练好的模型下载
albert_zh
RoBERTa for Chinese, TensorFlow & PyTorch

SpanBERT

作者提出一种分词级别的预训练方法。它不再是对单个Token进行掩码,而是随机对邻接分词添加掩码。对于掩码词的选取,作者首先从几何分布中采样得到分词的长度,该几何分布是偏态分布,偏向于较短的分词,分词的最大长度只允许为10(超过10的不是截取而是舍弃)。之后随机(均匀分布)选择分词的起点。对选取的这一段词进行Mask,Mask的比例和Bert相同,15%、80%、10%、10%。

对于损失函数也进行了改进,去除了Next Sentence,

具体做法是,在训练时取 Span 前后边界的两个词,值得指出,这两个词不在 Span 内,然后用这两个词向量加上 Span 中被遮盖掉词的位置向量,来预测原词。
在这里插入图片描述
详细做法是将词向量和位置向量拼接起来,作者使用一个两层的前馈神经网络作为表示函数,该网络使用 GeLu 激活函数,并使用层正则化:
BERT-wwm、RoBERTa-wwm、SpanBERT、ERNIE2_第3张图片
作者使用向量表示yi来预测xi,并和 MLM 一样使用交叉熵作为损失函数,就是 SBO 目标的损失,之后将这个损失和 BERT 的 Mased Language Model(MLM)的损失加起来,一起用于训练模型
在这里插入图片描述

论文下载地址:

ERNIE2

它的主要创新是ERNIE2采用Multi-task进行预训练,训练任务有词级别的、结构级别语义级别三类。同时多任务是轮番学习,学习完一个任务再学习下一个任务,不同任务使用相应损失函数,类似于教课,不同课应该分开上,若多任务同时学习会学的较为混乱,多个任务同时学习最好是任务之间存在关系,能够相互指导。

论文下载地址:

转载BERT-wwm、BERT-wwm-ext、RoBERTa、SpanBERT、ERNIE2
参考中文预训练BERT-wwm(Pre-Trained Chinese BERT with Whole Word Masking)
参考NLP预训练语言模型

提醒自己:在做任务的时候,可以尝试一下这些语言模型是不是会提高性能

你可能感兴趣的:(深度学习)