论文标题:OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction
论文来源:COLING 2022
论文链接:https://arxiv.org/pdf/2209.02693.pdf
代码链接:GitHub - Cao-Hu/OneEE
事件抽取(EE)是信息抽取的一项重要任务,旨在从非结构化文本中抽取结构化事件信息。以前的大多数工作都集中于抽取单一事件,而忽略了重叠或嵌套的事件。一些重叠和嵌套的EE模型包括几个连续的阶段来抽取事件触发词和论元,这会受到错误传播的影响。因此,我们设计了一个简单而有效的标记方案和模型,将EE表示为word-word关系识别,称为OneEE。触发词或论元词之间的关系在一个阶段同时被识别,从而产生非常快的事件抽取速度。该模型配备了一个自适应事件融合模块来生成事件感知表示,以及一个距离感知预测器来集成相对距离信息来进行word-word关系识别,实验表明这个给想法是有效果的。在3个重叠和嵌套的EE基准,即FewFC、Genia11和Genia13上的实验表明,OneEE达到了最先进的(SoTA)结果。此外,在相同的条件下,OneEE的推理速度比基线的推理速度更快,并且由于它支持并行推理,因此可以进一步显著提高。
事件抽取(EE)是信息抽取研究中的一项基本但具有挑战性的任务。EE促进了实际应用的发展,如知识图谱构建、生物过程分析、和金融市场监督。EE的目标是从文本中识别事件触发词以及相关的论元。作为一个例子,图1(a)说明了一个Share Reduction事件,包括触发词“reduced”和角色为subject的论元“Wang Yawei”。
传统的EE方法将事件抽取作为序列标记任务,即假设事件mention不重叠。这忽略了复杂的不规则EE场景(即重叠和嵌套的EE)。
如图1(b)所示,有两个重叠的事件,Investment和Share Transfer,它们共享相同的触发词“acquired”和论元“Guangzhou Securities”。
图1(c)显示了一个嵌套事件的例子,其中事件Gene Expression的触发词expression是另一个事件Positive Regulation角色为Theme的论元。
先前对重叠和嵌套EE的研究采用了基于pipline的方法,在几个连续的阶段抽取事件触发词和论元。最近的2021年最先进的模型CasEE也使用了这种连续执行事件类型检测、触发词抽取和论元抽取的方法。这种方法的主要问题是后一阶段依赖于前一阶段,这本质上带来了误差传播问题。
为了解决上述问题,我们提出了一种新的标记方案,将重叠和嵌套的EE转换为word-word关系识别。如图2所示,我们设计了两种类型的关系,包括span关系(S-*)和角色关系(R-*)。
span关系S-*处理触发词和论元识别,表示两个词是触发词(T)的头尾边界还是论元(A).
角色关系R-*处理论元角色分类,表示论元是否在事件中扮演“*”角色。
在此基础上,我们提出了一个one-stage事件抽取模型OneEE,它主要包括三个部分。首先,它采用BERT作为编码器来获得上下文化的单词表示。然后,利用由一个注意力模块和两个门融合模块组成的自适应事件融合层,获得每个事件类型的event-aware上下文表示。在预测层中,我们通过计算distance-aware scores来parallelly预测每对单词之间的跨度和角色关系。最后,事件触发词、论元及其角色可以在一个stage使用这些关系标签解码,而没有错误传播。
我们对3个重叠和嵌套的EE数据集FewFC、Genia11和Genia13上的OneEE进行了评估,并进行广泛的实验和分析。我们的贡献可以总结如下:
- 设计了一种新的标记方案,将事件抽取作为word-word关系识别任务,为重叠和嵌套的EE提供了一种新颖而简单的解决方案。
- 提出了一个one-stage模型OneEE,可以有效地并行抽取重叠和嵌套的EE的word-word关系。
- 进一步提出了一个adaptive event fusion layer,以获得事件感知的上下文表示,并有效地集成事件信息。
- OneEE在性能和推理速度方面都优于SoTA模型。
信息抽取是自然语言处理的关键研究轨迹之一,其中事件抽取是最复杂的任务。传统EE(即flat 或regular EE)将EE制定为序列标记任务,为每个token分配一个标签(例如,BIO标记方案)。例如,Joint Event Extraction via Recurrent Neural Networks (aclanthology.org)使用两个双向RNN来获得更丰富的表示,然后用来联合预测事件触发词和论元角色。Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation通过引入基于注意力的GCN来建模依赖图信息,共同提取多个事件触发词和论元。然而,他们关于事件提及不相互重叠的基本假设并不总是有效的。不规则的EE(即重叠和嵌套的EE)没有得到太多的关注,这更具有挑战性和现实性。
现有的重叠和嵌套EE方法以pipeline方式执行包含几个步骤的事件提取。为了解决争论的重叠问题,采用多组二进制分类器,其中每个服务器为一个角色来检测特定于角色的论元跨度,但未能解决触发词重叠。除了pipeline方法外,处理重叠EE的最新尝试是CasEE(2021年),在一个具有级联解码的联合框架中。它们是第一个同时处理所有重叠的模型。CasEE(2021年)依次进行类型检测、触发词抽取和论元抽取,其中重叠的目标根据特定的前一个预测分别进行抽取。然而,大多数多阶段的方法都存在误差传播的问题。
标记方案在信息抽取领域已经得到了广泛的研究。传统的序列标注方法对每个token进行一次标记(如BIO)很难处理不规则的信息提取(如重叠的NER)。一些研究人员扩展了BIO标签方案,以适应更复杂的场景。然而,由于灵活性有限,存在标签模糊性问题。最近,grid tagging方案由于它呈现word pairs之间关系的特点被用于许多信息提取任务中,如意见挖掘、关系提取和命名实体识别等。例如,TPLinker通过用链接标签标记token对,实现了没有训练和推理之间差距的one-stage联合关系提取。受这些工作的启发,我们设计了标记方案来解决重叠和嵌套的EE,它在one stage并行预测触发词或论元词之间的关系。
同样值得注意的是,这项工作继承了单词单词关系检测思想最近的成功,如Unified Named Entity Recognition as Word-Word Relation Classification。Li等人(2022b)提出将所有的NER(包括flat、嵌套和不连续的mention)与基于grid tagging方案的word-word建模统一起来。然而,这项工作与Li等人(2022b)有两个不同之处。首先,我们成功地将word-word建标记的思想从NER扩展到EE,其中我们为嵌套的事件和重叠的事件重新设计了两种关系类型。其次,从建模的角度来看,我们设计了一个自适应事件融合层来充分支持one-stage(端到端)复杂事件检测,这极大地有助于避免错误的传播。
事件抽取的目标包括抽取事件触发词及其论元。我们可以形式化重叠和嵌套的EE如下:给定一个由N个标记或单词组成的输入句子和事件类型,该任务的目的是提取每个标记对之间的跨度关系S和角色关系R,其中表示事件类型集合,S和R是预定义的标签。这些关系可以在下面进行解释,为了更好地理解,我们还给出了一个如图2所示的示例。
S:跨度关系表明和提取的触发词结束标记S-T或论元跨度S-A,其中
R:角色关系表明论元与xj行为的特定角色R-*事件的触发词包含,其中. *表示角色类型。
NONE:表示单词对没有定义任何关系。
我们的模型的体系结构如图3所示,它主要由三个部分组成。首先,使用预训练语言模型BERT作为编码器,从输入的句子中生成上下文化的单词表示。然后,利用由一个注意力模块和两个门模块组成的自适应事件融合层,将嵌入的目标事件类型集成到上下文表示中。然后,利用预测层联合提取词对之间的跨度关系和角色关系。
我们利用BERT作为模型的编码器,因为它已经被证明是在EE中进行表示学习的SoTA模型之一。给定输入句子,将每个标记转换成单词块,然后将它们输入一个预先训练过的BERT模块。在BERT计算之后,每个sentential word可能涉及几个片段的向量表示。在这里,使用最大池化来生成基于单词块表示的单词表示
目的:融合编码器提供的事件信息和上下文信息,获得事件感知的单词表示Vt
整个框架目标是预测目标事件类型等的word pairs之间的关系,因此生成事件感知表示是很重要的。
如下图所示,自适应融合层包括一个注意力模块,用来对事件之间的交互进行建模并获取全局事件信息;以及两个门融合模块用于将“全局和目标事件信息”与“上下文词表示”进行集成。
作用:获得每个上下文单词表示的全局事件嵌入
基于transformer中的自注意力机制,首先引入了一种注意力机制,其输入包括queries, keys和values。输出被计算为这些值的加权和,其中分配给每个值的权重是具有对应键的查询的点积。注意机制:
其中,是一个比例因子,Q,K和V是query, key 和value张量。
- 模型中如何使用:
给定一组随机初始化的事件类型嵌入,其中M是事件类型的数量,计算可以表述为:
其中为注意力机制的输出,和为可学习参数。
第一个门
目的:将全局事件信息编码为单词表示
做法:采用了门模块来融合上下文单词表示和全局事件表示。
其中
是在编码层那一步使用最大池化来生成基于单词块表示的单词表示
其中为注意力机制的输出,和为可学习参数。
第二个门
目的:将目标事件类型的嵌入和前一个门模块的输出进行集成
其中表示目标事件类型嵌入,是最终的event-aware词表示。
门融合机制如何实现
目的:集成两种特征,并过滤不必要的信息。
门向量g是由具有sigmoid函数的全连接层产生的,它可以自适应地控制输入端的流动:
其中p和q为输入向量,σ(·)是一个sigmoid激活函数,和[;]分别表示元素级的乘积和连接操作。和为可训练参数。
目的:经过自适应事件融合层之后,得到的事件感知的单词表示Vt,被用于联合预测每对单词之间的跨度和角色关系。
对于每个单词对,计算一个分数来衡量它们的关系的可能性。
目标事件类型t的单词对的跨度得分
角色得分:
其中,表示参数,是自适应融合层最终的event-aware词表示
为了整合相对距离信息和词对表示,引入了一个distance-aware得分函数。distance-aware得分函数计算方法:
对于一个表示序列中的两个向量和,将它们与RoFormer提供的相应位置嵌入结合起来,然后通过它们的点积计算得分:
其中和是和的位置嵌入,。
对于分数,其中*表示关系s或r,训练目标是最小化variant of circle损失,扩展softmax交叉熵损失来求出多标签分类问题。此外,引入了阈值得分δ,注意到关系对的得分大于δ,而其他对的得分小于δ。损失函数可表示为
其中,表示关系*的成对集,δ被设置为零。
最后,枚举所选事件类型集中的所有事件类型,并得到总损失:
其中是从S采样的子集,我们在附录中详细介绍了抽样策略。
在推理期间,模型能够通过将事件类型嵌入并行地注入到自适应事件融合层来提取所有事件。如图4所示,一旦我们的模型在一个阶段中预测了某一事件类型的所有标签,整个解码过程可以总结为四个步骤:
首先,我们得到触发词和论元的开始和结束索引。第二,获取触发词和论元跨度。第三,根据R-*关系来匹配触发词和论元。最后,将事件类型分配给此事件结构。特别地,我们对每个事件类型重复上述四个步骤。
如表1所示,遵循之前的工作,采用中文重叠EE的金融事件提取数据集FewFC。FewFC注释了10个事件类型和18个参数角色类,其中约22%的句子包含重叠的事件。
我们还在两个嵌套的EE生物医学数据集上进行了实验,即Genia11和Genia13,大约18%的句子包含嵌套事件。Genia11注释了9种事件类型和10个论元角色类,而Genia13的数字分别是13和7。我们将训练集/验证集/测试集划分为8:1:1。
对FewFC采用Chinese Bert-base模型,对Genia11和Genia13采用BioBERT模型。我们采用AdamW优化器,BERT模块的学习速率为2e−5,其他模块的学习速率为1e−3。batch size为8,隐藏大小dh为768。我们用FewFC和Genia11的20个epoch和Genia13的30个epoch来训练我们的模型。所有的超参数都将在development集上进行了调整。所有的事件类型的嵌入都是从scratch开始进行训练的。
在评估方面,我们遵循以往工作的传统标准。
- 触发词识别(TI):如果预测的触发词跨度与黄金标签匹配,则正确识别触发词;
- 触发词分类(TC):如果正确识别并分配给正确类型,则正确分类;
- 论元识别(AI):事件类型识别正确,且与黄金标签匹配的预测论元跨度;
- 论元分类(AC):如果论元识别正确,并且预测角色与任何黄金标签匹配,则论元正确分类。
实验得出了这四个指标的精确度(P)、Recall (R)和F1值(F1)。
TP、FP、FN、TN可以理解为
这些方法通过为每个标记分配一个标签,将EE任务转换为序列标记任务。
BERT-softmax使用BERT来获取用于分类触发词和论元的特征表示。
BERT-CRF在BERT上添加CRF层以捕获标签依赖性。
BERT-CRF-joint将BIO标记方案扩展到B/I/o类型的联合标签,类型和角色,来自实体和关系的联合提取。
这些方法都由于标签冲突而无法解决重叠问题。
这些方法可以在几个阶段中进行EE。
PLMEE通过根据触发词提取器预测的触发词以pipline提取特定论元,来解决论元重叠问题。
CasEE依次进行类型、触发词和论元提取,其中重叠的目标分别提取为之前的预测条件,所有子任务共同学习。
表2显示了在重叠的EE数据集FewFC上的所有方法的结果
表3显示了嵌套的EE数据集Genia11和Genia13的结果。
我们可以观察到:
1)我们的方法显著优于所有其他方法,并在所有三个数据集上取得了最先进的F1分数。
2)与序列标记方法相比,我们的模型获得了更好的查全率和f1分数。
具体来说,我们的模型在FewFC数据集上的召回率和AC的F1得分比BERT-CRF-joint好11.7%和6.3%,在两个Genia数据集上AC的F1得分平均显著提高4.4%。由于序列标记方法只能求解flat EE,因此证明了我们的模型在重叠和嵌套EE上的有效性。
3)与多阶段方法相比,我们的模型也大大提高了F1分数的性能。在三个数据集上,我们的模型在TC的F1分数上平均比最先进的模型CasEE模型平均高出2.1%。我们认为这是因为我们的自适应事件融合模块已经很好地学习到了事件特征。特别是,我们的模型在三个数据集的AI上平均提高了3.4%,在AC上提高了1.6%。结果表明了我们的单级框架的优越性,它优雅地实现了重叠和嵌套的事件提取,而没有错误传播。
为了评估我们提出的模型在识别重叠和嵌套事件提及方面的有效性,我们进一步报告了在FewFC中包含至少一个重叠事件的句子和在Genia11中包含至少一个嵌套事件的句子的结果。
图5显示了TC和AC对测试中重叠和嵌套句子的结果。结果表明,该方法在重叠句子和嵌套句子上优于其他方法。原因主要有两个方面: 1)我们解决了所有的重叠模式,而BERT-CRF-joint不能处理重叠和嵌套的EE,PLMEE只能解决论元重叠。2)我们的单阶段模型优于CasEE,因为我们可以有效地学习事件感知表示并并行提取单词词关系,而CasEE则可以连续三次进行错误传播。
为了验证每个成分的有效性,我们对FewFC数据集进行了消融研究,如表4所示。首先,如果没有注意力机制,性能略微下降。通过用附加操作替换门控机构,性能也下降到一点。此外,当自适应事件fusion layer被加法取代时,性能显著下降,说明事件表示和上下文的有用性。最后,去除位置嵌入导致所有F1得分显著下降,特别是AC的F1得分的1.6%,说明位置信息对识别word-word关系至关重要。
在本节中,我们研究了位置嵌入对OneEE预测层的影响。根据FewFC测试集中的论元与相应触发词的距离分为6组,并报告有位置嵌入和没有位置嵌入的模型的召回率。如图6所示,随着事件中触发词和论元之间的距离的增加,AC召回率会下降。这表明,如果在一个事件中的距离较长,那么模型就更难正确地检测角色。此外,具有位置嵌入的模型优于其他不具有位置嵌入的模型,表明相对距离信息有利于事件的提取。
表5列出了两个基线和我们的模型的stage、参数数和推理速度。
为了进行公平的比较,所有这些模型都是使用PyTorch实现的,并使用NVIDIA RTX 3090 GPU进行测试,其中批处理大小设置为1。如图所示,PLMEE的参数数量是其他两个模型的2倍,因为每个阶段都使用了两个基于bert的模块。此外,我们的模型的推理速度大约比PLMEE快3倍,比CasEE快0.3倍,它验证了我们模型的效率。最后,当批处理大小设置为8时,我们的模型的推理速度是PLMEE的9.4倍,这也证明了我们的模型的优势,即它支持并行推理。总之,我们的模型利用了更少的参数,但实现了更好的性能和更快的推理速度。
在本节中,我们将研究角色策略对交流电性能的影响。如图7所示,我们介绍了4种不同的策略来预测触发词和论元之间的角色关系:角色标签仅存在于1)触发词和论元头对(TH-AH)、2)触发词和论元头对(TW-AH)、3)触发词和论元词对(TH-AW)、4)触发词和论元词对(TW-AW)。
我们使用4种策略的模型的结果如图8所示。我们可以了解到,在FewFC和Genia11数据集上,TW-AW比所有其他策略都取得了最好的结果。这在很大程度上是因为它的标签比其他策略更密集。
我们进一步研究了事件数对EE的影响,结果如图9所示。我们可以观察到,BERT-CRF-joint、PLMEE和CasEE在单事件句子上取得了相似的性能,而CasEE在多事件句子上优于PLMEE和BERT-CRF-coint。最重要的是,我们的系统对不同事件数的所有其他基线都取得了最好的结果,这表明了我们所提出的方法的进步。
本文提出了一种新的基于word-word关系识别的单stage框架来同时解决重叠和嵌套的EE问题。单词对之间的关系被预定义为触发词或论元中的word-word关系,并交叉触发词-论元对。此外,我们提出了一个有效的模型,该模型包括一个自适应事件融合层,和一个联合识别各种关系的距离感知预测层。实验结果表明,该模型在三个数据集上都获得了新的SoTA结果,且速度比SoTA模型更快。
通过消融研究,我们发现自适应事件融合层和距离感知预测层可以有效地提高模型的性能。在未来的工作中,我们将把我们的方法扩展到其他结构化预测任务,如结构化EE和重叠实体关系提取。