LEBERT:Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter

提出了一种用于中文序列标注的词库增强型BERT,通过Lexicon Adapter layer 将外部词库知识融入到BERT层中

汉语序列标注中在不同层次中融合词汇特征和BERT的比较。为了简单起见,在BERT中只显示了两个转换层,并将句子截断为三个字符。ci表示第i个中文character,wj表示第j个中文word

将词汇整合到了底层,在BERT的transformer层之间集成lexicon信息,通过将一个汉语句子与一个现有词汇进行匹配,将其转换为一个字符-单词对序列。词典适配器用于动态提取最相关的匹配项,每个字符的单词使用字符到单词的双线性注意机制,词典适配器应用于BERT中相邻transformer之间,词典特征和BERT表示通过BERT中的多层编码器充分交互

证实了底层特征集成有助于跨度边界检测和跨度类型确定。

BERT Adapter旨在学习下游任务的任务特定参数。在预先训练好的模型层之间添加适配器,只为特定任务来调整添加的适配器中的参数。

We apply the Lexicon Adapter between the 1-st and 2-nd Transformer in BERT and fine-tune both BERT and pre-trained word embedding during training.

两个主要区别:

  1. LEBERT同时具有character特征和lexicon特征作为给定的输入,汉语句子被转换为一个character-words对序列

  2. transformer之间连接有一个lexicon adapter,将lexicon knowledge整合到Bert中

1. Char-Words Pair Sequence

we first build a Trie based on the D(a Chinese Lexicon D),

2. Lexicon Adapter

对于第i个位置的 char-words 对序列,输入表示为

h(i,c)表示的是character向量,由当前transformer输出,x(i,ws)表示的是word embedding

对于第j个word,从预训练word word embedding 查找表计算

为了对齐两种不同的表示,将查找到的x(ij,w),进行下面的维度计算

为了从所有匹配的单词中找出最相关的单词,引入了character-to-word的注意机制

对于第i个character,其word组合为Vi,和h(i,c),W矩阵计算全局ai,再对于第j个word, a(i,j)*v(ij,w),求和计算后的到z(i,w)

最后得到lexicon的权重信息

3. Lexicon Enhanced BERT

如何 inject lexcion信息在第k层 和 第(k+1)层 Transformer

适配器输入一个character向量和成对的word feature。通过对字符和单词的双线性attention,将lexcion特征加权为一个向量,然后将该向量添加到character向量,然后进行layer normalization.

4. training

你可能感兴趣的:(LEBERT:Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter)