论文题目:Query and Extract: Refifining Event Extraction as Type-oriented Binary Decoding
论文来源:ACL2022
论文链接:https://arxiv.org/pdf/2110.07476v1.pdf
代码链接:GitHub - VT-NLP/Event_Query_Extract
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
创新:提出了一个新的事件抽取框架,它使用事件类型和论元角色作为自然语言查询,从输入文本中提取候选触发词和论元。
由于查询中具有丰富的语义,我们的框架受益于注意力机制,以更好地捕获事件类型或论元角色与输入文本之间的语义相关性。query-and-extract范式利用来自各种本体的所有可用的事件注释作为一个统一的模型。
在ACE和ERE上的实验表明,我们的方法在每个数据集上都取得了最先进的性能,并且在零样本事件抽取上显著优于现有的方法。
事件抽取是一项从自然语言文本中识别输入事件的触发词和论元的任务。如图1所示,married和left分别是Marry和Transport事件类型的两个事件提到的触发词。left的事件中提到了两个论元:she is an Artifact, and Irap is the Destination.
传统的研究通常将事件抽取建模为多分类问题,首先定义一组事件类型,然后监督机器学习方法将检测和分类每个候选事件提及或论元为目标类型之一。但是,每个事件类型或论元角色都被视为原子符号,忽略了这些方法中丰富的语义。一些研究利用事件类型结构、种子事件提及或问答(QA)来探索事件类型的语义。然而,这些方法只针对单一目标事件本体。
由于多种本体的存在和处理新出现的事件类型的挑战,有必要研究可以使用来自不同事件本体的所有可用的训练数据的事件抽取方法。
为此,提出了一个新的基于查询和提取范式的事件抽取框架。我们的框架将事件类型和论元角色表示为具有丰富语义的自然语言查询。然后,通过利用注意力机制来捕获它们与输入文本的交互,可以使用这些查询来提取相应的事件触发词和论元。特别是,(1)用于触发词检测,根据每个事件类型的类型名和原型触发词的短列表将其表示为查询,并基于其查询感知对每个token进行二进制解码嵌入;(2)用于论元提取,将每个事件类型下定义的所有论元角色放在一起作为查询,然后采用多路注意力机制,通过一次性编码提取每个事件提到的所有论元,每个论元预测为二进制解码。
与之前研究比的优点:
- 我们的方法可以自然地将各种本体作为一个统一的模型来处理;
- 我们的二进制解码机制直接工作于任何表示为自然语言查询的事件类型或论元角色,从而有效地利用跨本体事件注释并做出零样本预测。
- 虽然基于QA的方法也可以进行零样本论元提取,但我们的方法不需要为论元角色创建高质量的问题或为不同论元角色创建多事件编码,因此更加准确和高效。
我们在两个公共基准数据集,ACE和ERE上评估了我们的方法,并展示了在标准监督事件抽取和推广到新事件类型和本体的具有挑战性的迁移学习设置方面的最新性能。值得注意的是,在零样本转移到新的事件类型时,我们的方法在触发词检测上比强基线高16%,在触发词检测上高26%论元检测。
我们的工作的总体贡献是:
- 将事件抽取作为一种查询和提取范式来细化,它比以前的自上而下的分类方法或基于QA的方法更一般化和有效。
- 设计了一个新的事件抽取模型,它利用了事件类型和论元角色的丰富语义,提高了准确性和通用性。
- 在监督和零样本事件抽取中建立了ACE和ERE上新的最先进的性能,并演示了我们的框架作为一个有效的跨本体转移的统一模型。
传统事件抽取研究通常使用多分类词检测事件触发词和论元。与以往将事件类型和论元角色视为符号的方法不同,我们的方法将它们看作具有丰富语义的查询,并利用输入token和每个事件类型或论元角色之间的语义交互。
一些研究探索了基于种子事件触发的事件类型语义、事件类型结构、定义和潜在表征。然而,它们很难推广到论点提取中。基于问答的事件抽取可以利用事件类型的语义和大规模的问题回答数据集。
与这些方法相比,有三种不同的重要设计,使我们的方法比这些方法更好地执行和推广基于QA的方法:
(1)我们的方法直接将事件类型和论元角色作为查询。相比之下,以前基于QA的方法依赖于模板或生成模块来创建自然语言问题。然而,很难找到每种事件类型的问题的最佳格式,许多研究已经表明,MRC或QA模型对问题的细微变化很敏感。
(2)基于QA的方法一次只能一次检测一个论元角色的论元,而我们的方法通过一次编码和解码提取事件触发的所有论元,这更有效,利用候选论元或论元角色之间的隐式关系。
(3)基于QA的方法依赖于span预测来提取论元,而不需要提取实体,这可能会导致更多的实体边界错误。因此,我们选择预训练一个name tagging模型,并在系统检测到的实体上使用二进制解码。此外,将事件抽取任务完全适应于基于西班牙的问题回答是相当具有挑战性的。主要原因是每个句子可能包含一个特定事件类型的多个触发词。即使我们可以正式化一个问题,例如,“攻击的触发词是什么?”模型很难正确地返回事件触发词的所有跨度。
如图2所示,给定一个输入句子,
首先,通过将每个事件类型作为对该句子的query来识别每个事件类型的候选触发词。
每个事件类型,如Attack,都用一个自然语言文本表示,包括它的类型名和原型触发词的候选名单,如invaded和airstrikes,这是从训练例子中选择的。
然后,将输入的句子与事件类型的query连接起来,用一个预先训练好的BERT编码词对它们进行编码,计算每个输入token的事件类型query的顺序表示上的attention分布;
最后将每个token分类为一个二进制标签,表明其是否为特定事件类型的触发词候选。
为了提取每个候选触发词的论元,我们将其对应事件类型的预定义论元角色集作为对输入句子的query。使用另一个BERT编码词来学习输入句子的上下文表示和论元角色的query。将输入句子中的每个实体作为一个候选论元,计算具有多路attention的实体与论元角色之间的语义相关性;最后根据每个论元角色将每个实体划分为一个二进制标签。
使用一个简短的原型触发词列表来丰富每种事件类型的语义。
我们选择排名前k个单词作为原型触发词。
每个事件类型将用一个自然语言的单词序列表示,包括它的类型名称和原型触发词的列表。
以事件类型Attack为例,最后将其表示为Attack invaded airstrikes overthrew ambushed。
给定一个输入句子,将每个事件类型作为query来提取相应的事件触发词。具体来说,首先将它们连接成如下顺序:
其中[SEP]是来自BERT编码词的分隔符。接下来,我们使用一个特殊的符号[EVENT]来强调触发词检测任务。然后,我们使用预先训练好的BERT编码词对整个序列进行编码,得到输入句子W=以及事件类型T=的上下文表示。
给定对每种事件类型的query,目标是从输入的句子中自动提取相应的事件触发词。为了实现这一目标,需要捕获每个输入token与事件类型之间的语义相关性。因此,用注意力机制来学习事件类型query的上下文表示序列上的权重分布,并为每个token获得一个事件类型感知的上下文表示:
其中是序列中第j个token的上下文表示。cos(·)是两个向量之间的余弦相似度函数。表示事件类型t感知token 的上下文表示。
此外,对事件触发词的预测还取决于特定上下文的发生。例如,根据ACE事件注释指南,作为Meet事件,meeting必须是“face-to-face and physically located somewhere”。为了捕获这些上下文信息,进一步应用上下文注意力来为每个输入token捕获有意义的上下文词:
其中,ρ(.)是attention函数,并计算BERT最后m层的自注意力力权重的平均值。
通过事件类型导向的注意力和上下文的注意力机制,输入句子中的每个token wi将获得两个丰富的上下文表示和。我们将它们与来自BERT编码词的原始上下文表示连接起来,并将其分类为二进制标签,表明它是事件类型t的候选触发词:
其中[;]表示连接操作,Uo是用于事件触发词检测的可学习论元矩阵,Pi是单词wi的one-hot词性(POS)编码。我们优化了事件触发词检测的以下目标
其中,T是目标事件类型的集合,N是来自训练数据集的token集。表示真实的标签向量。
在检测到每个事件类型的事件触发词后,我们将根据每个事件类型的预定义论元角色进一步提取它们的论元。
给定一个来自句子的触发词r及其事件类型t,我们首先获得事件类型t的预定义论元角色集为。为了提取r的相应论元,类似于事件触发词检测,我们将所有论元角色作为query,并将它们与原始输入语句连接起来
其中,我们使用最后一个[SEP]分隔符来表示其他类别,表示该实体不是一个论元。然后,我们用另一个预训练的BERT编码词对整个序列进行编码,得到句子和论元角色的上下文表示。
由于候选触发词r可能跨越句子中的多个token,我们得到了它的上下文表示r,作为r中所有token的上下文表示的平均值。此外,由于论元通常从句子W的实体中检测到,我们用一个bert-crf模型,该模型在与事件抽取相同的训练集上进行优化,以识别实体。由于每个实体也可能跨越多个token,遵循相同的策略,我们平均每个实体内所有token的上下文表示,并获得实体的上下文表示为。
给定一个类型t的候选触发词r和一个实体ei,对于每个论元角色gjt,我们需要确定r和ei之间的潜在关系是否对应于gjt,即ei是否在事件提及r中扮演的论元角色。为此,对于每个ei,我们首先获得一个触发词感知的实体表示为
其中,◦表示元素级的乘法操作。Uh是一个可学习的论元矩阵。
为了确定每个论元角色和每个实体之间的语义相关性,我们首先计算了触发词感知实体表示与论元角色表示之间的相似性矩阵S
其中,σ为点积算子,d为gt的嵌入维数,Sij表示给定候选触发词r的实体ei与特定论元角色的语义相关性。
在相关矩阵S的基础上,我们进一步应用双向注意力机制,得到每个实体的论元角色感知上下文表示,以及每个论元角色的实体感知上下文表示如下:
此外,先前的研究揭示了实体或论元角色之间的潜在关系对于提取论元也很重要。例如,如果实体e1被预测为一个攻击事件的攻击者,而e1位于另一个实体e2中,则e2很可能为攻击事件扮演Place的论元角色。
为了获取这些实体之间的潜在关系,我们进一步计算了这些实体之间的自注意力程度
同样,为了获取论元角色之间的潜在关系,我们还计算了它们之间的自注意力
最后,对于每个候选事件触发词r,我们通过将一个实体分类为一个二进制类来确定它是否在事件提及中扮演gjt的论元角色:
其中,Ua是一个用于论元提取的可学习的论元矩阵。z˜t是事件类型t的论元角色得分矩阵。训练的目标是最小化以下损失函数:
其中,A表示可能的论元角色的集合,而E是我们在提取论元时需要考虑的实体集。zij表示真实论元角色向量。
在测试期间,如果对其他类别的预测为1,则一个实体将被token为非论元。否则,就可以将其token为多个论元角色。
我们在两个公共基准上进行实验,ACE05-E+和ERE-EN。ACE定义了33种事件类型,而ERE包含38种事件类型,其中有31种重叠的事件类型。我们使用相同的数据分割ACE和ERE,用于监督事件抽取。对于零样本事件抽取,我们使用ACE中最受欢迎的10种事件类型作为训练类型,并将其余23种事件类型视为未可见的测试。在我们的实验中,我们使用随机的种子,并报告每个设置的平均分数。
我们进一步设计了两个更具挑战性和实际意义的设置来评估该方法如何利用来自不同本体的资源:(1)跨本体直接转移,其中我们只使用来自ACE或ERE的注释进行训练,并直接在另一个事件本体上测试模型。这与迁移学习文献中的领域自适应设置相对应;(2)关节学增强,我们将ACE和ERE的注释作为训练集,分别对ACE或ERE本体进行测试。这与迁移学习文献中的多领域学习设置相对应。直观地说,具有良好可转移性的方法应该从来自其他本体的增强训练数据中获益更多。我们遵循ACE和ERE相同的train/dev/test分割作为监督事件抽取。
表1显示了各种方法在ACE和ERE数据集上的监督事件抽取结果。通过研究已经在ACE数据集上进行,他们遵循不同的设置,特别是关于是否考虑时间和价值论元,以及是否所有与时间相关的论元角色都被视为单一角色。根据最近几项最先进的研究,我们不考虑时间和价值论元。我们的方法显著优于以往大多数可比的baseline方法,特别是在ERE数据集上。接下来,我们以QA_based方法BERT_QA_Arg作为主要baseline,因为它与我们的方法有相似的想法来比较它们的性能。
具体地说,对于触发词检测,所有baseline方法都将事件类型视为符号,并将每个输入token分类为“目标类型”或“其他类型”。因此,它们严重依赖于人类的注释,并且在注释不够时表现不佳。例如,在ACE05训练数据集中,只有31个关于End_Org的注释事件提及,所以BERT_QA_Arg只达到了35.3%的f分数。相比之下,我们的方法利用了输入token和事件类型之间的语义交互。因此,在注释有限的情况下,它仍然表现良好,例如,对于End_Org,它达到了66.7%的f分数。此外,通过利用事件类型的丰富语义,我们的方法还成功地检测到在训练数据集中很少看到的事件触发词,例如,驱逐和清除结束位置,而BERT_QA_Arg忽略了所有这些触发词。关于种子触发词的影响的更详细的讨论见附录B。
对于论元提取,我们的方法比baseline方法显示了更一致的结果。例如,在“沙洛姆将飞往伦敦与英国首相托尼·布莱尔和外交大臣杰克·斯特劳进行会谈”这句话中,BERT_QA_Arg方法正确地预测了托尼·布莱尔和杰克·斯特劳是由会谈引发的会面事件的实体论据,但却忽略了沙洛姆。然而,通过采用多路注意,特别是所有实体之间的自我注意,我们的方法可以捕获它们潜在的语义关系,例如Shalom和TonyBlair是两个人,因此它成功地预测了Meet事件的所有三个实体论元。
由于没有完全可比的零样本事件抽取baseline方法,我们采用了最新的技术,BERT_QA_Arg由于其QA公式,预计具有特定的可转移性。然而,原始的BERT_QA_Arg使用一个通用查询,例如“触发”或“动词”,将每个输入token分类为一个目标事件类型或其他,因此不能在测试期间检测任何新事件类型的事件提及。我们通过将每个事件类型而不是通用词作为事件检测的查询来调整BERT_QA_Arg框架。请注意,我们的方法利用事件类型作为查询,而不需要触发零样本事件抽取的原型触发词。
如表2所示,我们的方法在零样本事件抽取下显著优于BERT_QA_Arg,在触发词检测上的f分数增益超过16%,在论元提取上的f分数增益超过26%。与BERT_QA_Arg相比,它只依赖于自我关注从bert编码词学习输入token之间的相关性和事件类型或论元角色,我们的方法进一步应用多个精心设计的注意机制在bert上下文表示更好地捕获事件类型之间的语义交互或论元角色和输入token,产生更好的准确性和概括性。
我们进一步选择了13种看不见的事件类型,并分析了我们的方法在每种事件类型上的零样本事件抽取性能。如图3所示,我们的方法在结婚、离婚、庭审和罚款,但更糟糕的是起诉,起诉、释放-假释、起诉、证明和宣布破产,有两个可能的原因:第一,事件类型的语义,如结婚,离婚,比其他类型的,如指控判决,宣布破产更直接和明确。因此,我们的方法可以更好地解释这些类型。第二,某些类型的事件触发词的多样性,如离婚,远低于其他类型,如演示。例如,在9个离婚事件触发词中,只有2个独特的字符串,即离婚和崩溃,而在7个事件提到中有6个独特的字符串。
对于跨本体转移,我们开发了BERT_QA_Arg的两种变体作为baseline方法:(1)BERT_QA_Argmulti,它与原来的实现相同,并使用多分类来检测事件触发词。(2)BERT_QA_Argbinary,我们应用与第3.3节相同的查询自适应,并使用多个二进制分类进行事件检测。为了实现联合本体的增强,我们结合了ACE和ERE的训练数据集并从零开始优化模型。
表3显示了在直接传输和增强设置下的跨本体传输结果。我们的方法在所有设置下都显著优于baseline方法。值得注意的是,对于直接转移,例如,从ERE到ACE,通过比较整个测试集的性能ACE和ERE共享事件类型(f分数在括号),我们的方法不仅取得更好的性能,共享事件类型也提取事件触发词和论元ACE的新事件类型。相比之下,baseline方法几乎无法为新的事件类型提取任何事件或论元。此外,通过结合ACE和ERE的训练数据集进行联合本体增强,与仅使用目标事件本体的注释相比,我们的方法可以进一步提高其性能,表明其在不同本体之间具有优越的传输能力。例如,ACE包含了一个传输事件类型,而ERE定义了两个更细粒度的类型:Transport-Person和Transport-Artifact。通过将从ERE到ACE中的Transport-Person和Transport-Artifact的注释添加到ACE中,我们的方法可以捕获与传输相关的事件类型查询和相应的输入token之间的底层语义交互,从而在ACE测试集的传输事件类型上获得1.5%的f-分数。相比之下,在没有显式地捕获事件类型和输入token之间的语义交互的情况下,这两种baseline方法都无法通过来自略微不同的事件本体的额外注释而得到增强。附录C提供了我们的方法和baseline方法之间更深入的比较。
我们进一步评估了每种注意机制对事件触发词检测和论元提取的影响。如表4所示,所有的注意机制都显示了触发词或论元提取的显著好处,特别是在ERE数据集上。事件类型注意力和多路注意对触发词和论元提取的效果最大,因为它们被设计用来捕获输入文本和事件类型或论元基于角色的query之间的相关性。我们还注意到,没有将BERT-CRF名称标记模型检测到的实体作为输入,而是将所有token作为候选论元,我们的方法与baseline相比,论元提取仍然显示出具有竞争力的性能。
我们面向类型的二进制解码的优点包括:(1)它允许模型更好地利用事件类型的语义,这些语义已被证明对监督和零样本事件抽取都有效;(2)它允许利用来自不同本体的所有可用事件注释,这在零样本事件抽取和跨本体转移中得到了演示;(3)在实践中,新的事件类型和注释可以不断出现,并且不可能总是为所有事件类型训练模型。我们的方法有可能不断更新和提取任何期望的事件类型的事件。
我们也承认,二进制译码通常会增加计算成本。我们设计了两种策略来缓解这个问题:(1)超过69%的训练数据集中的句子不包含任何事件触发词,所以我们随机抽取20%的句子进行训练。(2)我们的一次性论元编码和解码策略一次提取每个事件触发词的所有论元。它比以前的基于QA的方法更有效,后者一次只为一个论元角色提取论元。在这些策略中,对于触发检测,我们的方法与依赖多分类的BERT_QA_Arg相比,我们的训练时间多80%,推理时间少19%,而对于论元提取,我们的方法的训练和推理时间比BERT_QA_Arg少36%。即使在一个更细粒度的事件本体maven(Wangetal.,2020),包括168种事件类型,触发提取,我们的方法大约需要20%的训练时间和推理两倍的时间与BERT_QA_Arg相比,略优于先进的性能