时间关系抽取(之前,之后,重叠等)是理解以自然语言描述的事件的关键方面。我们认为,这项任务将得益于资源的可用性,该资源以事件通常遵循的时间顺序的形式提供先验知识。本文通过从20年来(1987年至2007年)的《纽约时报》(NYT)文章中提取事件之间的时间关系,来开发这种资源(在新闻领域中获得的概率知识库)。我们表明可以通过此资源改进现有的时间提取系统。作为副产品,我们还显示可以从该资源中检索有趣的统计信息,这可能会有益于其他时间感知任务。拟议的系统和资源均可公开获得1
时间是知识表示的重要方面。用自然语言,时间信息通常表示为事件之间的关系。对这些关系进行推理可以帮助弄清事情发生的时间,估计事情需要多长时间以及总结一系列事件的时间表。最近举行的几次SemEval研讨会很好地展示了该主题的重要性(Verhagen et al., 2007, 2010; UzZaman et al., 2013; Llorens et al., 2015; Minard et al., 2015; Bethard et al., 2015, 2016, 2017).
时间关系提取中的挑战之一是,它需要事件通常遵循的时间顺序的高级先验知识。在示例1中,我们从CNN的几个摘要中删除了事件,因此我们无法使用对这些事件的先验知识。我们还被告知e1和e2具有相同的时态,而e3和e4具有相同的时态,因此我们无法求助于它们的时态来判断哪个发生较早。结果,即使是人类,也很难弄清这些事件之间的时间关系(以下称为“ TempRels”)。这是因为丰富的时间信息被编码在事件的名称中,并且在做出决策时通常起着不可或缺的作用。在示例1的第一段中,很难理解没有实际事件动词时实际发生的情况。更不用说它们之间的TempRel了。在第二段中,事情变得更加有趣:如果我们有e3:dislike和e4:stop,那么我们很容易知道“我不喜欢”发生在“他们停止专栏”之后。但是,如果我们有e3:ask和e4:help,则e3和e4之间的关系现在相反,而e3在e4之前。我们需要事件名称来确定TempRel。但是,示例1中没有它们。在示例2中,我们显示了完整的句子,由于我们的先验知识,该任务对人类而言变得容易得多,即爆炸通常会导致人员伤亡,并且人们通常会在获得帮助之前询问。受这些示例(实际上很常见)的激励,我们相信在确定事件之间的TempRel时,此类先验知识的重要性。
但是,大多数现有系统仅利用这些事件的相当局部的特征,不能代表人类对这些事件及其“典型”顺序的先验知识。结果,现有系统几乎总是尝试解决示例1中所示的情况,即使实际上像示例2中那样用输入呈现它们。因此,这项工作的第一个贡献就是以概率知识库的形式构建这种资源,该知识库是由大型《纽约时报》(NYT)语料库构建的。我们在下文中将资源命名为TEMporal关系概率知识库(TEMPROB),该知识库可能会益于许多时间感知任务。表1显示了TEMPROB的一些示例条目。其次,我们表明,可以使用TEMPROB改进现有的TempRel提取系统,无论是局部方法还是全局方法(稍后说明),都可以在基准TimeBank-Dense数据集上显着提高性能(Cassidy等,2014) )。
提取事件及其之间的关系(例如,共指,因果关系,蕴含性和时间性)一直是NLP社区中的一个活跃领域。一般而言,事件被认为是与参与该动作的相应参与者相关联的动作。在这项工作中(Peng and Roth,2016; Peng et al。,2016; Spiliopoulou et al。,2017),我们考虑基于语义框架的事件,可以通过现成的语义角色标记(SRL)直接检测)工具。这与以前的事件检测工作非常吻合(Hovy等,2013; Peng等,2016)。
取决于感兴趣的事件,SRL结果通常是事件的超集,需要随后进行过滤(Spiliopoulou等,2017)。例如,在ERE(Song等人,2015)和事件块检测(Mitamura等人,2015)中,事件仅限于一组预定类型(例如“业务”,“冲突”和“司法”)。 );在TempRels的背景下,现有的数据集更多地侧重于谓语动词而不是名词4(Pustejovsky等,2003; Graff,2002; UzZaman等,2013)。因此,由于很难获得名词性事件的TempRel注释,因此本文仅着眼于动词语义框架,而在下文中,我们将“动词(语义框架)”与“事件”互换使用。
利用上面定义的特征,我们需要训练一个可以在每个文档中注释TempRel的系统。就其高密度TempRel而言,TimeBank-Dense数据集(TBDense)(Cassidy等人,2014)是已知质量最高的,并且是TempRel提取任务的基准数据集。它包含36个来自TimeBank的文档(Pustejovsky等,2003),这些文档使用(Cassidy等,2014)中提出的密集事件排序框架进行了重新注释。在本研究中,我们遵循其之前,之后,包含,包含,相等和模糊的标签集(用R表示)。
由于TBDense中事件注释的细微差异,我们按以下方式收集训练数据。我们首先从TBDense的原始文本中提取所有动词语义框架。然后,我们仅在TBDense中保留与事件匹配的那些语义框架(此阶段中保留了约85%的语义框架)。这样,我们可以简单地使用TBDense中提供的TempRel注释。此后,除非另有说明,否则本文中使用的TBDense数据集均指该版本。
我们将TempRel按每个关系的两个事件的句子距离进行分组5。然后,我们使用在伊利诺伊州LBJava软件包(Rizzolo和Roth,2010)中实现的平均感知器算法(Freund和Schapire,1998)从上述训练数据中学习。由于在TBDense中仅注释了句子距离为0或1的关系,因此我们将有两个分类器,一个分类器用于相同的句子关系,一个分类器用于相邻的句子关系。
生成TEMPROB时,我们需要处理大量文章,因此由于其计算效率高,我们采用了前面所述的贪婪推断策略(Chambers等人,2014; Mirza和Tonelli,2016)。具体来说,我们在邻近句子关系分类器之前应用相同句子关系分类器。每当在本文中添加新关系时,将立即执行可传递图闭包。这样,如果在闭合阶段已经对边缘进行了标记,则不会再次对其进行标记,因此可以避免冲突。
如前所述,我们将用来构建TEMPROB的源语料库由20年(1987-2007)的NYT文章组成。它包含超过一百万个文档,我们使用Amazon Web Services(AWS)云上的Illinois Curator软件包(Clarke等人,2012)从每个文档中提取事件和相应的功能。总共,我们在NYT语料库中发现了51K个独特的动词语义框架和80M个关系(其中15K个动词框架提取了20多个关系,而9K个动词框架则提取了100多个关系)。
我们认为表2中的示例具有直觉上的appeal:chop发生在味道之前,清洁发生在污染之后,等等。更有趣的是,在表格的下部,我们显示了物理顺序不同于时间顺序的对:例如,当实现是P-Before欲望时,在大多数情况下它仍被标记为T-After(104) (111次)中,这在直觉上是正确的。实际上,例如在TBDense数据集中(Cassidy等人,2014),大约30%-40%的P-Before对是T-After。因此,
对于特定动词,例如v = investigate,每个动词均按上述两个条件概率排序。然后,在时间上位于v之前或之后的最可能动词如图1所示,其中y轴是相应的条件概率。我们可以看到合理的事件序列,例如{参与,杀死,怀疑,窃取调查报告,起诉,支付,惩罚},这表明可以将TEMPROB用于事件序列预测或故事完结任务。在T-Before调查清单(图1a),炸弹的T-Before清单(图1b)和在T-After哀悼清单(图1c)中也有可疑的配对。 )。由于此处未考虑这些动词框架的论点,因此这几对看似反直觉的对是来自系统错误还是来自特殊上下文,需要进一步研究。
在上面,我们已经解释了TEMPROB的构造,并从中展示了一些有趣的示例,这些示例旨在可视化其正确性。在本节中,我们首先对TEMPROB中获得的先验数据的正确性进行量化,然后说明TEMPROB可用于改进现有的TempRel提取系统。
在表2中,我们显示了使用 η b 或 η a > 0.9 \eta_b或\eta_a>0.9 ηb或ηa>0.9的示例。我们认为它们似乎是正确的。在这里,我们基于TBDense量化 η b 和 η a \eta_b和\eta_a ηb和ηa的“正确性”。具体来说,我们收集了所有的T-Before和T-After金对。令为常数阈值。想象一个naive的预测器,对于每对事件vi和vj,如果为 η b > τ \eta_b>\tau ηb>τ,它将预测为T-Before;如果为 η a > τ \eta_a>\tau ηa>τ,则预测为T-After ;否则,它预测是的T-Vague。我们期望较高的 η b ( 或 η a ) \eta_b(或\eta_a) ηb(或ηa)表示对标记为T-Before(或T-After)的实例的较高置信度。
表3显示了该预测器的性能,该性能符合我们的预期,因此证明了TEMPROB的有效性。随着我们逐渐增加表3中τ的值,精度以与τ大致相同的速度增加,这表明TEMPROB的 η b 和 η a \eta_b和\eta_a ηb和ηa的值确实表示置信度级别。由于τ较大时,更多示例被标记为T-Vague,因此召回率也有望降低。
如前所述。如图2所示,许多系统通过整数线性规划(ILP)采用全局推断方法(Roth和Yih,2004),以在整个时间图上施加传递约束(Bramsen等,2006; Chambers和Jurafsky,2008; Denis和Muller, 2011; Do等,2012; Ning等,2017)。除了第二节中所示的用法。 4.2.1中,TEMPROB的先前分布也可以用于规范化常规ILP公式。具体来说,在每个文档中,让为事件i和事件j的关系r的指示符函数;令为从本地分类器获得的相应softmax分数(取决于i和j之间的句子距离)。那么,全局推理的ILP目标是
对于对完整的TBDense数据集感兴趣的读者,我们还进行了如下幼naive的扩充。回想一下,系统3仅对完整的TBDense数据集的子集进行预测。我们保留了这一预测子集,并填补了Ning等人遗漏的预测。 (2017)。将该天真增强的提议系统的性能与CAEVO和Ning等进行了比较。 (2017)在完整的TBDense数据集上。我们可以看到,用我们提出的系统Ning等人的预测代替。 (2017)获得了更好的精度,召回率,F1和认知度F1,这是该数据集上所有已报告绩效的最新技术水平。请注意,第4-5行的意识F1得分与Ning等人报道的值一致。 (2017)。据我们所知,表8中的结果是文献中第一个报告这两个指标的性能的结果,并且有希望看到所提出的方法在两个指标上均优于最新方法。
时间关系(TempRel)提取在NLP中是一项重要且具有挑战性的任务,部分原因是它对先验知识的强烈依赖。受实际示例的启发,本文认为事件通常遵循的时间顺序资源很有帮助。为了构建这样的资源,我们使用现有的TempRel提取系统自动处理了来自NYT的大型语料库,其中包含超过100万个文档,并获得了TEMporal关系概率知识库(TEMPROB)。TEMPROB很好地展示了这些先验知识的能力,并且它已经展示了其在基准数据集TBDense上改进现有TempRel提取系统的能力。本文报告的资源和系统都可以公开获得12,我们希望它可以促进对与时间有关的任务的更多调查。