Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514.
在本文中,我们旨在首先介绍中文 BERT 的全词掩蔽(wwm)策略,以及一系列中文预训练语言模型。然后我们还提出了一个简单但有效的模型,称为 MacBERT,它在几个方面对 RoBERTa 进行了改进。
特别是,我们提出了一种新的掩蔽策略,称为 MLM(masked language model) as correction (Mac)。
MacBERT 主要旨在减轻原始 BERT 中预训练和微调阶段的差异。
主要贡献:
BERT 主要由两个预训练任务组成:掩蔽语言模型 (MLM) 和下一句预测 (NSP)。
进一步提出了一种称为全词掩码(wwm)的技术,在这个设置中,我们不是随机选择 WordPiece [18] (单词中的几个字母)标记来屏蔽,而是一次屏蔽与整个单词对应的所有标记。 这明确地强制模型在 MLM 预训练任务中恢复整个单词,而不是仅仅恢复 WordPiece 标记 [1],这更具挑战性
优化 BERT 的屏蔽过程,包括实体级屏蔽和短语级屏蔽。
现有的基于自编码的预训练语言模型,如BERT,由于掩蔽令牌[MASK]从未在微调阶段出现,因此存在预训练阶段和微调阶段的差异。
为了缓解这一问题,提出了基于Transformer-XL[8]的XLNet,主要有两种修改:
他们得出了几个有用的结论,使 BERT 更强大,主要包括
主要解决了 BERT 内存消耗高、训练速度慢的问题。 ALBERT 介绍了两种参数缩减技术。
采用了一种类似于生成对抗网络(GAN)[20] 的新生成器鉴别器框架。
使用传统中文分词工具(CWS)将文本拆分为多个单词
使用 LTP [21] 进行中文分词以识别词边界
word piece => whole word
我们还预训练了几个小型模型,我们称之为 RBT。
具体来说,我们使用与训练 RoBERTa 完全相同的训练策略,但我们使用更少的 Transformer 层。 我们训练 3 层、4 层、6 层 RoBERTa 基础,分别表示为 RBT3、RBT4 和 RBT6。
我们还训练了一个 3 层 RoBERTa-large,表示为 RBTL3,其参数大小与 RBT6 相似。
MacBERT => MLM as correction BERT
MacBERT 由两个预训练任务组成:作为校正的 MLM 和句子顺序预测。
MLM 存在“预训练和微调”的差异,预训练阶段的人工标记,如 [MASK],从未出现在真正的下游微调中的调优任务。
在这个预训练任务中,我们不采用任何预定义的标记来进行掩蔽。 相反,我们将原始 MLM 转换为文本校正任务,模型应该将错误的单词纠正为正确的单词,这比 MLM 更自然。
主要修改如下:
本文采用ALBERT[15]提出的句子顺序预测(SOP)任务,结果表明该任务比NSP任务更有效
正样本是通过使用两个连续的文本来创建的,而负样本是通过切换它们的原始顺序来创建的。
消融实验
从总体上看,删除 MacBERT 中的任何组件都会导致平均性能下降,这表明所有修改都有助于整体改进。
当我们比较 N-gram masking 和相似词替换时,我们可以看到明显的优缺点,其中 N-gram masking 在文本分类任务中似乎更有效,而阅读理解任务的性能似乎更受益于相似词替换任务。
NSP 任务的重要性不如 MLM 任务
句子顺序预测任务确实表现出比原始 NSP 更好的性能
去除 SOP 任务导致阅读理解任务明显下降,这表明有必要设计一个类似 NSP 的任务来学习两个片段之间的关系
https://blog.csdn.net/y1040468929/article/details/122042641