Template-Based Named Entity Recognition Using BART

场景:Few-Shot Learning + Prompt Learning+PLM(BART)+Transfer Learning

Abstract

最近人们对研究少量的NER很感兴趣,其中低资源的目标域与资源丰富的源域有不同的标签集。现有的方法使用一种基于相似性的度量方法。然而,它们不能充分利用NER模型参数中的知识传递。为了解决这一问题,我们提出了一种基于模板的NER方法,将NER作为序列到序列框架中的语言模型排序问题,将由候选命名实体span填充的原始句子和语句模板分别视为源序列和目标序列。为了进行推理,模型需要根据相应的模板分数对每个候选跨度进行分类。

1 Introduction

命名实体识别(NER)是自然语言处理中的一项基本任务,根据预定义的实体类别识别文本输入,如位置、人、组织等。目前主要的方法使用顺序神经网络,如BiLSTM和bert来表示输入文本,使用softmax或CRF输出层来分配指定实体标签(例如组织、人和位置)或非实体标签在每个输入token上。如figure2(a)。
神经NER模型需要大量的标记训练数据,这些数据可以用于某些领域,如新闻,但在大多数其他领域很少有。理想情况下,最好从资源丰富的新闻领域转移知识,以便可以在基于一些标记实例的目标领域中使用模型。然而,在实践中,一个挑战是,实体类别在不同的领域中可能是不同的。如figure1所示,系统需要识别新闻域中的位置和人物,但识别电影域中的角色和标题。softmax层和CRF层都需要在训练和测试之间设置一致的标签集。因此,给定一个新的目标域,输出层需要进行调整,并且必须同时使用源域和目标域再次进行训练,这可能会很昂贵。
Template-Based Named Entity Recognition Using BART_第1张图片

最近的一项工作通过使用距离度量研究了少镜头NER的设置。其主要思想是基于源域的实例训练相似度函数,然后利用目标域的相似度函数作为FSL-NER的最近邻准则。与传统方法相比,基于距离的方法大大降低了领域自适应的代价,特别是对于目标域数量较大的情况。然而,它们在标准的域内设置下的性能相对较弱。此外,它们的领域自适应能力也在两个方面受到限制。首先,利用目标域中的标记实例来寻找启发式最近邻搜索的最佳超参数设置,但不是用于更新NER模型的网络参数。虽然成本较低,但这些方法并不能改进跨域实例的神经表示。其次,这些方法依赖于源域和目标域之间类似的文本模式。当目标域的编写风格与源域不同时,这种强烈的假设可能会阻碍模型的性能。
Template-Based Named Entity Recognition Using BART_第2张图片
为了解决这些问题,我们研究了一种基于模板的方法,利用生成式预训练语言模型的少镜头学习潜力来进行序列标记。具体来说,如图2所示,BART使用由相应的标记实体填充的预定义模板进行了微调。例如,我们可以定义模板,如“ is a ”, where can be “person” and “location”, etc.。考虑到句子“ACL will be held in Bangkok”,其中“ Bangkok”有一个gold label “location”,我们可以使用一个填充的模板“ “Bangkok is a location entity””来训练BART,作为输入句子的decoder输出。在非实体跨度方面,我们使用一个模板 is not a named entity”,这样负输出序列也可以进行采样。在推理过程中,我们将输入句子中所有可能的文本跨度列举为已命名的实体候选项,并根据模板上的BART分数将它们分类为实体或非实体。
该方法有三个优点。首先,由于预训练模型具有良好的泛化能力,网络可以有效地利用新领域中的标记实例进行 fine-tuning。其次,与基于距离的方法相比,即使目标域和源域在写作风格上存在较大的差距,但该方法也具有更强的鲁棒性。第三,与传统方法(使用softmax/CRF的预训练模型)相比,我们的方法可以应用于任意新的命名实体类别,而不改变输出层,因此允许持续学习( continual learning).
我们在资源丰富和少镜头的设置下进行实验。结果表明,我们的方法在新闻数据集CoNLL03(上获得了最先进的标签依赖方法的竞争结果,并且在少镜头设置方面显著优于怀斯曼和斯特拉托斯(2019年)、Ziyadi等人(2020年)和黄等人(2020年)。据我们所知,我们是第一个使用生成式预训练语言模型来解决few-shot序列标记问题的人。

2 Related Work

神经方法在NER中给出了竞争性能。一些方法(Chiu和尼科尔斯,2016;斯特鲁贝尔等,2017)将NER视为每个输入标记的局部分类问题,而其他方法使用CRF(Ma和Hovy,2016)或序列到序列框架(Zhang等,2018;Liu等,2019)。Cui和Zhang(2019)和Gui等人(2020)分别使用了标签注意网络和贝叶斯神经网络。Yamada等人(2020年)使用了实体感知的预训练,并在NER上获得了最先进的结果。这些方法与我们的方法相似,因为参数可以在监督学习中进行调整,但与我们的方法不同,它们是为指定的命名实体类型设计的,这使得它们的新的领域适应成本很高。
我们的工作是基于距离的NER,旨在最小化领域适应成本。怀斯曼和stratos(2019)通过检索一个带有标记的句子列表,从最近的邻居中复制了令牌级别的标签。Yang和Katiyar(2020)通过使用维特比解码器捕获从源域估计的标签依赖关系,改进了怀斯曼和斯特拉托斯(2019)。Ziyadi等人(2020)采用两步方法(Lin等人,2019;Xu等人,2017),该方法首先检测跨越边界,然后通过比较与标记实例的相似性来识别实体类型。虽然不更新NER的网络参数,但这些方法依赖于源域和目标域之间类似的名称实体模式。一个例外是Huang等人(2020),他们通过使用外部噪声webNER数据研究噪声监督预训练和自我训练方法。我们的方法不依靠外部数据的自我训练,但会产生更好的结果。
有一系列的工作使用模板来解决自然语言的理解任务。其基本思想是通过在语言建模任务中定义特定的句子模板来利用预先训练模型的信息。.Brown等人(2020年)首次在文本分类任务中使用提示符进行小样本学习。Schick和Schutze(2020)重构输入作为文本分类的完形填空问题。Schick等人(2020)和Gao等人(2020)通过自动生成标签词和模板,扩展了Schick和Schutze(2020)。Petroni等人(2019)通过构建封闭式模板,从BERT中提取实体之间的关系。Sun等人(2019)使用模板构建辅助句子,并将方面情绪任务转换为句子对分类任务。
我们的工作与利用预先训练好的语言模型进行基于模板的自然语言处理相一致。虽然之前的工作将句子级任务视为掩蔽语言建模或使用语言模型为整个句子评分,但我们的方法使用语言模型为给定输入句子的每个跨度分配分数。据我们所知,我们是第一个将基于模板的方法应用于序列标记的人。
以span为单位,为每个span评分

3 Background

Few shot Named Entity Recognition

有高资源和低资源两个数据集,它们的标签可能有重合,不完全一样,目标是根据这两个数据集训练出准确且鲁棒的模型。

Traditional Sequence Labeling Methods

传统方法把NER作为序列标注任务,输出BIO序列。
在这里插入图片描述
encoder+softmax
该论文用的bert和bart作为encoder
NER域自适应的一种标准方法是首先使用源域数据R训练模型,如果可用的话,然后使用目标域实例P进一步调整模型。然而不同领域的label可能不同,输出层的参数会不同,
该论文选择直接从头训练目标与的权重W和偏置b
然而,这种方法并没有充分利用标签关联(例如,“percon”和“character”之间的关联),也不能直接用于目标域中没有标记数据可用的零样本情况。

4 Template-Based Method

我们将NER作为seq2seq框架下的语言模型排序问题。模型的源序列是一个输入文本X={x1,…,xn},而目标序列Tyk,xi:j={t1,…,tm}是一个由候选文本span xi:j和实体类型yk填充的模板。我们首先在第4.1节中介绍如何创建模板,然后分别在第4.2节和第4.3节中展示推理和训练细节。分类和标注一次完成

4.1 Template Creation

我们手动创建模板,它有一个slot用于candidate_span,另一个slot用于entity_type标签。使用一对一的映射把标签集L = {l1, . . . , l|L|}转换成自然语言集合Y = {y1, . . . , y|L|},例:LOC->location。然后定义模板T+yk ,如: is a location entity. 非命名实体的也有 is not a location entity.

4.2 Inference

我们首先列举了句子{x1,……,xn}中所有可能的跨度,并将它们填充到准备好的模板中。为了提高效率,我们将n-gram的数量从1个限制到8个,因此为每个句子创建了8n个模板。(限制span长度)
然后,我们使用微调的预训练生成语言模型为每个模板分配一个分数在这里插入图片描述
通过使用任何预先训练过的生成语言模型来评分模板,我们计算了每个实体类型的分数f(T+yk,xi:j),以及无实体类型的分数f(T−xi:j)。然后,我们将得分最大的实体类型分配给文本跨度。在本文中,我们采用BART作为预训练的生成语言模型。我们的数据集不包含嵌套的实体。如果两个跨度有文本重叠,并且在推理中被分配了不同的标签,那么我们选择得分较高的跨度作为最终决定,以避免可能存在的预测矛盾。

4.3 Training

golden entities 用于在训练期间创建模板。假设xi:j的实体类型为yk。我们将文本跨度xi:j和实体类型yk填充到T+中,以创建一个目标句子T+yk,xi:j。同样,如果xi:j的实体类型为无实体文本跨度,则通过将xi:j填充到T−中,得到目标句子T−xi:j。我们使用训练集中的所有黄金实体来构造(X,T+)对,并另外通过随机抽样非实体文本跨度创建负样本(X,T−).负样本的数量是正样本的1.5倍。

给定一个序列对(X,T),我们将输入的X输入给BART的编码器,然后得到句子的隐藏表示在这里插入图片描述
然后softmax,损失函数用的负对数似然
在这里插入图片描述
在这里插入图片描述

4.4 Transfer Learning

给定一个具有小样本实例的新域P,标签集LP(第4.1节)可以与用于训练NER模型的域P不同。因此,我们用用于训练和测试的新域标签集填充模板,其余的模型和算法保持不变。特别是,给定少量的(XP,TP),我们用上面描述的方法为低资源域创建序列对,并对在富源域上训练的NER模型进行微调。该过程成本低,但能有效地转移标签知识。因为我们的方法的输出是一个自然的句子,而不是特定的标签,所以资源丰富和低资源的标签词汇表都是预先训练过的语言模型词汇表的子集(废话)这使得我们的方法能够利用标签相关性,如“person”和“character”,以及“位置”和“城市”,以提高跨领域迁移学习的效果。(预训练模型encoder的功劳,考虑词汇尖的关系)

5 Experiments

我们在资源丰富的BART设置和基于模板的设置和少击设置上与多个基线进行比较。我们使用CoNLL2003作为资源丰富数据集。继Ziyadi等人(2020年)和Huang等人(2020年)之后,我们使用麻省理工学院电影评论(Liu等人,2013年)、麻省理工学院餐厅评论(Liu等人,2013年)和ATIS(Hakkani-Tur等人,2016年)作为跨域小样本数据集。关于跨域转移,在三个目标小样本数据集中存在unseen的实体类型(即高资源数据集有,低资源数据集没有)。我们的训练细节和数据集统计数据的细节显示在附录中。

5.1 Template Influence

表明模板是影响最终性能的一个关键因素。基于开发结果,我们使用了性能最好的模板
测试了以下几个模板,选了第一行的(性能最好的)。

Template-Based Named Entity Recognition Using BART_第3张图片

5.2 CoNLL03 Results

Standard NER setting 在高资源数据集

我们可以看到,尽管基于模板的BART是为少数镜头的命名实体识别而设计的,但它在资源丰富的设置中也具有竞争力。
recall高这表明我们的方法在识别命名实体方面更有效,同时也能选择不相关的跨度
(判断是 entity 不是entity)
.值得注意的是,虽然序列标记BART和基于模板的BART都使用了BART解码器表示,但它们的性能有很大的差距,后者在F1分数上绝对比前者高出1.30%,证明了基于模板的方法的有效性。观察结果与Lewis等人(2020)的观察结果一致,表明BART在序列分类方面并不是最具竞争力的。这可能是由于其基于seq2序列的去噪自动编码器训练的性质,这不同于BERT的掩蔽语言建模。
为了探究模板是否彼此互补,我们使用表1中报告的前三个模板训练了三个模型,并采用实体级投票方法对这三个模型进行集成。使用集成的精度提高了1.21%,这表明不同的模板可以捕获不同类型的知识。最后,我们的方法通过利用三个模板获得了92.55%的F1分数,这与报告的最佳分数具有很强的竞争力。为了提高计算效率,我们在后续的小样本实验中使用了一个单一的模型。

In domain few-shot NER setting.

我们在CoNLL03上构建了一个学习场few shot景,其中某些特定类别的训练实例数量受到down-sample(隔几个采一次样以实现小样本场景)的相当限制。特别地,我们将“MISC”和“ORG”设置为资源量丰富的实体,将“LOC”和“PER”设置为资源量较低的实体。我们对CoNLL03训练集进行降采样,得到3806个训练实例,其中包括3925个“ORG”,1423个“MISRC”,50个“LOC”和50个“PER
".由于文本样式在丰富资源和低资源的实体类别中是一致的,我们称域中的场景为NER。

5.3 Cross-domain Few-Shot NER Result

当目标实体类型与源域不同时,并且只有少量的标记数据可用于训练时,我们评估了模型数据的性能。我们通过从一个大的训练集中随机抽样训练实例作为目标域的训练数据来模拟跨域低资源数据场景。我们使用不同数量的实例进行训练,每个实体类型随机抽取固定数量的实例(MIT电影和MIT餐厅每个实体类型10、20、50、100、200、500个实例,ATIS每个实体类型10、20、50个实例)。如果一个实体的实例数量少于固定的样本数量,我们就使用所有的实例来进行训练。
我们首先考虑一个从头开始训练的设置,其中不使用源域数据。基于距离的方法不能适合此设置。与传统的序列标记BERT方法相比,我们的方法可以更好地利用few shot数据。特别是,对于每个实体类型只有20个实例,我们的方法给出了F1得分为57.1%,高于MIT餐厅上每个实体类型使用100个实例的BERT。
我们进一步研究知识有多少可以被迁移到新闻域(CoNLL03)。从新闻域(CoNLL03)转移。与基于距离的方法相比(怀斯曼和斯特拉托斯,2019;Ziyadi等人,2020;Huang等人,2020),随着目标域标记数据数量的增加,我们的方法显示出更多的改进,因为基于距离的方法只是优化其搜索阈值,而不是更新其神经网络参数。
一种可能的解释是,如前所述,我们的模型更多地利用了词汇表中不同实体类型标签之间的相关性(BART的功劳),而由于将输出作为离散的类标签来处理,BERT无法实现这一点。

你可能感兴趣的:(prompt,learning,few,shot,learning,机器学习,人工智能,深度学习,nlp)