QIUXP-预训练语言模型:BertMarker:MarkBERT: Marking Word Boundaries Improves Chinese BERT

MarkBERT: Marking Word Boundaries Improves Chinese BERT

作者觉得现有的基于words作为一个unit的方式,对于OOV和中文并不十分适用。
提出的markbert,是在以词组为切割的基础上,还加入了marker标记。

预训练任务包括两种:

The first task is masked language modeling and we
also mask markers such that word boundary knowledge can
be learned since the pre-trained model needs to recognize
the word boundaries within the context. The second task is
replaced word detection. We replace a word with artificially
generated words and ask the markers behind the word to predict whether the word is replace

在replace word detection中,混淆词的构造可以是多种多样的。我们采取了两种简单的策略:(1)我们使用同义词作为混淆;(2)我们使用中文中语音(拼音)相似的词。为了获得同义词,我们使用Zhang和Yang(2018)提供的外部词汇嵌入。我们计算单词之间的余弦相似度,并使用最相似的单词作为同义词混淆。为了获得基于语音的混淆,如图2所示,我们使用一个外部工具来获得单词的语音,并选择一个与之混淆的单词共享相同的语音。

QIUXP-预训练语言模型:BertMarker:MarkBERT: Marking Word Boundaries Improves Chinese BERT_第1张图片

模型结构

QIUXP-预训练语言模型:BertMarker:MarkBERT: Marking Word Boundaries Improves Chinese BERT_第2张图片

作者觉得,这种预训练方式更有助于中文NER中的marker标记下的识别。我不觉得特备好。而且论文的实验上,做的并不是很充分。

你可能感兴趣的:(论文记录,语言模型,word,bert)