最近重新阅读了BERT和ALBERT文章,所以写下自己的一些感悟。这两篇文章都是Google发出来的。其中BERT是2018年,在Transformer的基础上进行扩展;而ALBERT发表在2020年ICLR上,它是基础BERT来进行改进。
BERT全称是Bidirectional Encoder Representations from Transformers,它通过连接从左到右和从右到左的文本,设计了一个预处理的深度双向表达模型。在fine-tuned阶段,只需要增加简单的输出层,就可以在BERT模型基础上达到SOTA的效果。
BERT在GLUE数据集上能够达到80.4%,在MultiNLI上则有86.7%,在SQuAD v1.1则有93.2%。
在NLP场景中,预处理的模型往往能够提升下游任务的效果。在natural language inference(语言推断)、relation classification、NER和QA任务中,预处理的语言模型都是有效果的。
预处理的语言模型到下游任务中,主要有两种策略方法:
这些方法都是单方向(unidirectional)的语言模型。
BERT引入了两个预处理时的学习目标,包括:Masked language model(MLM)、next sentence predicton(NSP)。
预处理得到的词向量能够作为模型的输入,这会带来大量的特征信息,提升之后的任务效果。
在ELMO中,生成了比较传统的词向量。它们提出上下文敏感的特征,能够表征复杂语境下的词语语义。
在有监督的下游任务微调模型之前,预先训练一些关于LM目标的模型架构。这种方法就是提前训练好了一个模型(提前训练的模型通常是用无监督的方法训练的),在下游任务中几乎不需要从头开始学习模型参数。GPT模型就是这种做法。
在有监督的数据集中训练一个模型,然后把训练好的模型迁移到另一个数据集中进行训练学习。这种方法也不需要模型从新训练,但是需要大量的有监督数据集。
论文中训练了两个基础的BERT:
名称 | Transformer的层数 L L L | 隐藏层大小 H H H | self-attention head的数量 A A A | 总参数数量 |
---|---|---|---|---|
BERT_base | 12 | 768 | 12 | 110M |
BERT_large | 24 | 1024 | 16 | 340M |
可以看到BERT模型的参数量是很大的。它在输入表达中构建了三层的词语嵌入,同时设计了两个预训练时的任务(MLM,NSP)
接下来介绍两个预训练的任务:MLM,SNP
为了实现真正的深度双向模型,所以使用了随机掩码。使用mask的原因是为了防止模型在双向循环训练的过程中“预见自身”。于是,文章中选取的策略是对输入序列中15%的词使用[MASK]标记掩盖掉,然后通过上下文去预测这些被mask的词语。但是为了防止模型过拟合地学习到【MASK】这个标记,对15%mask掉的词进一步优化:
为了让模型能够学习到句子之间关系,则预训练任务中加入了“预测下一句”的任务,这是一个二值分类任务。也即是说输入句子中包括了两个句子A和B。
例如例子:
Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext
接下来看一下实验部分。首先需要说明BERT在不同数据集中输出的部分都不一致。
在CoNLL-2003的NER任务中,也比传统的LSTM+CRF要高。
(1)主要验证MLM的效果。
(2)参数实验
BERT的层数L越多,隐藏层大小H越多,效果越好
(3)MNLI数据集上的收敛速度
MLM的收敛速度确实比LTR模式稍慢。然而,就绝对准确度而言,MLM几乎立刻就开始超越LTR模式
(4)BERT当feature-based来用(在Conll-2003数据集上)
实验中在BERT输出之后加一层BLSTM进行分类。如果把所有层的输出加起来,得到的效果最好。
ALBERT模型是在BERT模型的基础上进行改进的。它设计了参数减少的方法,用来降低内存消耗,同时加快BERT的训练速度。同时使用了self-supervised loss(自监督损失函数)关注构建句子中的内在连贯性(coherence )。实验在GLUE、RACE、SQuAD数据集上取得了最好的效果。
在NLP任务中,一个好的预训练模型能够提升模型的效果。当前一个SOTA的模型,它有几百万或者十亿以上的参数,如果要扩大模型规模,就会遇到这些计算机内存上的限制,同时训练速度会受到限制。目前存在的解决方法有两种:模型并行化、好的内存管理机制。但这两种方法都会存在通信开销。因此本论文设计了一个A lite BERT(ALBERT),它比BERT使用更少的参数。
ALBERT使用了两种参数减少的方法:
总的来说,参数减少技术像是一种正则化方法。ALBERT会比BERT-large的参数量少18倍,同时训练速度快1.7倍。
ALBERT还提出了另一种方法,用来代替NSP技术,这种新技术叫sentence-order prediction (SOP)。SOP是一种self-supervised loss。
因此ALBERT利用了三种技术:
参数共享的思想来自于Transformer模型中。在多个研究工作中,发现交叉层的参数共享确实能够提升模型的效果,且模型层与层之间通常是震荡的,而这种做法也能够使得层与层之间收敛。
ALBERT设计两个一个新的loss,来预测两个连续的文本段的顺序。语篇中的连贯性(coherence)和衔接性(cohesion)已得到广泛研究,并且已发现许多现象将相邻的文本片段连接在一起。比如:Skip-thought和FastSent利用句子向量预测相邻句子的词语。
ALBERT的骨干结构是BERT模型,同时使用了GELU激活函数。定义词典的大小为 E E E,encoder的层数为 L L L,隐藏层的大小为 H H H,attention head为 H / 64 H/64 H/64。
在BERT、XLBERT和RoBERTa中wordpiece embedding的大小为 E E E,同时隐藏层大小为 H H H,它们两个之间是相等的: E = H E=H E=H。
从建模的观点来看,wordpiece embedding主要学习上下文相关的表征,而隐藏层则学习上下文无关的表征。。显然后者更加复杂,需要更多的参数,也就是说模型应当增大隐层大小 H H H,或者说满足 H ≫ E H \gg E H≫E.
从实际角度来看,通常词典大小 V V V是非常大的,如果 E = H E=H E=H,增加 H H H的大小,会使得 V × E V \times E V×E的矩阵非常大,从而造成模型参数过大,训练速度减慢。
因此,ALBERT使用了隐式分解的方法,把embedding矩阵参数分解成两个矩阵。也即是把参数量 O ( V × E ) O(V \times E) O(V×E)变为 O ( V × E + E × H ) O(V \times E + E \times H) O(V×E+E×H)
在实现时,随机初始化 V × E V \times E V×E和 E × H E \times H E×H的矩阵,计算某个单词的表示需用一个单词的one-hot向量乘以 V × E V \times E V×E维的矩阵(也就是lookup),再用得到的结果乘 E × H E \times H E×H维的矩阵即可。两个矩阵的参数通过模型学习。
在交叉层中使用了参数共享操作,可以看到层与层之间的距离相似。在上图中ALBERT的层间距离是收敛的,不是震荡状态。
在BERT模型中,NSP是一个binary分类,用来预测两段文字是否是连续的。然而,随后的研究(Yang等人,2019;Liu等人,2019)发现NSP的影响不可靠,并决定消除它,这一决定得到了几个任务下游任务绩效改进的支持。NSP不可靠的原因在于:对比于MLM任务,它是一项缺乏难度的任务。NSP包含了两种任务:主题预测、连贯性预测。然而主题预测比连贯性预测要容易,所以NSP是缺乏难度的任务。
而ALBERT使用的sentence-order prediction(SOP),避免主题预测(topic prediction)并且专注于构建句子之间的连贯性。SOP loss使用了和BERT一样的技术来抽取positive examples(在同一个文档中抽取两个连续的句子),同时把这两个句子的顺序进行交换,用来作为negative 样本。 SOP能够合理的是:一定程度上解决NSP任务,因为NSP大概率是基于没有对齐连续性线索
使用了BOOKCORPUS (Zhu et al., 2015) and English Wikipedia数据用来作为原始测词典。限制了最大句子长度为512。同时也使用了MLM预测任务和SOP任务。
-如果全部的层都进行参数共享,参数量会变得很少,但模型的效果不会降低太多。
(1)BERT源码分析PART II:https://blog.csdn.net/Kaiyuan_sjtu/article/details/90288178
(2)BERT论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
(3)ALBERT论文:《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》