RESIN: A Dockerized Schema-Guided Cross-document Cross-lingual
Cross-media Information Extraction and Event Tracking System
摘要:我们提出了一种新的信息提取系统,可以从来自多个来源、多种语言(我们的实验中为英语和西班牙语)和多种数据模式(语音、文本、图像和视频)的新闻文档集合中自动构建现时的事件图谱。该系统从两个方面进行了改进:
(1)从句子级事件提取扩展到跨文档、跨语言、跨媒体事件提取、共引用消解和时间事件跟踪;
(2)利用人工策划事件模式库进行匹配,提高抽取输出。我们已经在GitHub1上公开了这个dockerized系统,用于研究目的,并提供了演示视频。
介绍:
事件提取和跟踪技术可以帮助我们理解海量新闻数据中描述的真实事件,以及它们之间的相互联系。这些技术已经被证明在各种应用领域很有帮助,包括新闻分析(Glavaš和Štajner, 2013;Glavaš等,2014;Choubey等人,2020年),协助自然灾害救援工作(Panem等人,2014年;Zhang等,2018;Medina Maza et al., 2020),财务分析(Ding et al., 2014, 2016;Yang等人,2018;Jacobs等人,2018;恩多等人,2019年;Özbayoglu等人,2020年)和医疗监测(Raghavan等人,2012年;Jagannatha和Y u, 2016;Klassen等人,2016;杰布里和赫斯特,2018)。
然而,与实体相关的信息相比,记住事件相关的信息要困难得多。例如大多数美国人能够回答“哥伦比亚大学位于哪个城市?”,但很少有人能给出“谁死于COVID-19?”的完整答案
。自然语言理解和计算机视觉的进步已经能够自动化进行部分事件理解,但是目前,第一代,自动化事件理解过于简单,,因为大多数方法都专注于句子级别的序列标记来提取事件,现有的复杂时间理解方法也缺乏以抽象事件模式(复杂事件模板)存储库的形式整合知识,通过时间事件跟踪理解时间进程,使用背景知识以及执行全局推断和增强。为了解决这些限制,在本文中将展示一个新的端到端的开源dockerized研究系统,从多个来源、多个语言(我们实验用的时英语和西班牙语)和多种数据模式(语音、文本、图像和视频)的新闻文档中时间有序的事件。我们的系统由一系列组件组成,包括模式引导实体、关系和复杂事件抽取,实体和事件共同引导解析、时间时间跟踪和跨媒体实体和事件接地。事件模式编码事件及其联系的典型结构。我们的端到端系统已经被dockerized并且公开用于研究目的。
2、方法
2.1 综述
我们的架构图如下所示;
系统从多语言、多媒体文档集群中提取信息。每个文档集群包含关于特定复杂事件的文档,我们的文本管道从文本和转录的演讲中获取输入。它首先提取实体、关系和事件提及(章节2.2-2.3),然后执行跨文档、跨语言的实体和事件相互引用解析(章节2.4)。然后通过时间关系提取对提取的事件进行排序(第2.5节)。我们的视觉管道将图像和视频作为输入,从视觉信号中提取事件和参数,并且通过跨模态事件相互引用解析将提取的知识元素置于我们提取的图谱中,最后我们的系统从模式存储库中选择与提取的IE图最匹配的模式,并且合并这两个知识图谱,系统可以提取DARPA KAIROS本体中定义的24种实体、46种关系和67种事件。
2.2 语音与文本中的联合实体、关系与事件提及提取与关联
对于语音输入,我们使用Amazon Transcribe API用于将英语和西班牙语语音转换为文本。当未指定语言时,将从音频信号中自动检测语言。它返回带有对每个检测到的单词的开始和结束时间的转录,以及潜在的替代转录。
然后,从语音识别结果和文本输入中,我们使用OneIE (Lin et al., 2020)提取实体、关系和事件提及数,这是一种最先进的用于句子级信息提取的联合神经模型。给定一个句子,本模块的目标是提取一个信息图G = (V, E),其中V是包含实体提及和事件触发器的节点集,E是包含实体关系和事件参数链接的边集。我们使用一个预先训练的BERT编码器(Devlin et al., 2018)来获得输入句子的上下文化单词表示。接下来,我们采用独立的基于条件随机字段的标记器从句子中识别实体提及和事件触发广度。我们通过平均空间中单词的向量来表示每个空间或信息图中的节点。然后我们使用单独的任务特定网络的前馈神经网络计算每个节点或边的标签分数,为了捕获知识元素之间的交互,我们在解码信息图谱时加入了模式引导的全局特征。对于候选图G,我们定义了一个全局特征向量 f = f 1 ( G ) , ⋅ ⋅ ⋅ f M ( G ) f={f_{1}(G),\cdot \cdot \cdot f_{M}(G)} f=f1(G),⋅⋅⋅fM(G),其中 f i ( ⋅ ) f_{i}(\cdot ) fi(⋅)是一个计算G能够匹配特定的全局特征的函数,我们计算全局特征得分 u f uf uf,其中 u u u是一个可学习的权重向量,组后我们使用一个基于波束搜索二解码器来生成全局得分最高的信息图,在我们提取了这些提及之后,我们应用语法分析器(Honnibal et al., 2020)来扩展提及头词的范围。然后我们应用跨语言实体链接器(Pan等人,2017)链接实体提到WikiData (Vrandeˇci´c和Krötzsch, 2014)
2.3 文档级别的事件参数抽取
前一个模块只能在句子层面上运行,特别是,事件参数经常在相邻的句子中找到。为了弥补这一点,我们进一步开发了一个文档级的事件参数提取模型,并且使用从两个模型中提取的参数联合作为最终输出,我们将参数提取问题表述为条件文本生成,模型可以在不需要调优阈值的情况下处理相同角色中缺少参数和多个参数的情况。并可以在一次传递中提取所有参数。条件由原始文档和一个空白事件模板组成。例如,Transportation事件类型的模板是arg1,将arg3中的arg2从arg4位置传输到arg5位置。所需的输出是一个带有参数的填充模板。
我们的模型基于BART (Lewis et al., 2020),这是一个编码器-解码器语言模型。为了利用编码器-解码器LM进行参数提取,构造了模板的输入句子,模板中的所有参数名(arg1,arg2等)都被一个特殊的占位符取代,该模型通过直接优化生成概率以端到端的方式进行训练,为了将提取到的参数与文档进行对齐,采用一种简单的后处理过程,并且找到最接近相应事件触发器的匹配文本跨度。文档
2.4 跨文档、跨语言实体和事件引用解析
在提取所有提及的实体和事件之后,我们应用了我们的跨文档跨语言实体共同引用解析模型,这是e2e-coref模型的扩展(Lee等人,2017)。使用多语言的XLM-RoBERTa(XLM-R)Transformer 模型),以便于我们的共同参考分辨率模型可以处理非英语数据,其次,我们将e2e-coref模型移植到跨语言阔文档设置给定N个混合的英语和西班牙语输入文档,我们创建N(N-1)/2对文档并将每对文档视为单个的“巨型文档”。将我们的模型应用于每个巨型文档,最后,聚合所有巨型文档的预测,以提取共同引用集群。我们还应用了一个简单的启发式规则,该规则防止两个提到的实体,如果它们以高置信度链接到不同的实体被合并在一起,,我们的事件共引用解析方法类似于实体共引用解析,同时合并了事件类型信息等额外的符号特征。如果输入文档都是关于一个特定的复杂事件,我们应用一种模式引导启发式规则来进一步细化神经事件共引用解析模型的预测。例如,在轰炸图式中,通常只有一个轰炸事件。因此,在一个文档集群中,如果有两个提到类型轰炸的事件,并且它们有几个共同的论点,这两个提到将被认为是互相引用的
2.4 跨文档时间事件排序
基于上面描述的事件相互引用解析组件,我们将所有提及分组到集群中。接下来,我们将按照时间轴对事件进行排序。我们跟随Zhou等人(2020)设计了一个用于时序事件排序的组件。具体来说,我们进一步用远时间有序监督信号预训练T5模型(rafael et al., 2020)。这些信号通过两组语法模式获取:1)文本中的关键字之前/之后,2)显式提到日期和时间。我们采用这样一个预训练的时间T5模型,并在MA TRES上对其进行微调(Ning等人,2018b),并将其用作时间事件排序的系统。我们对一个文档中的所有事件提及对进行成对时间关系分类。我们在MA TRES (Ning等人,2018b)上对RoBERTa (Liu等人,2019)进行微调,进一步训练另一个模型。该模型也成功地应用于事件时间预测(Wen et al., 2021;Li等人,2020a)。我们只考虑相邻句子中的事件提及对,或者可以由共享参数连接。除了模型预测,我们还从模式存储库中学习高自信的模式。我们把经常出现的时间关系当作我们的先验知识。对于每个给定的文档簇,我们将这些模式作为高精度模式分别应用于两个统计时间排序模型之前。模式匹配算法将从两个图中选择最佳匹配作为最终实例化的模式结果。因为非英语数据的注释可能昂贵且耗时,所以时间事件跟踪组件只针对英语输入进行训练。为了将时间事件跟踪能力扩展到跨语言设置,我们应用谷歌云神经机器翻译将西班牙语文档翻译成英语,并应用FastAlign算法(Dyer et al., 2013)获得单词对齐
2.6 跨媒体信息建立与融合
视觉事件和论证角色提取:我们的目标是从视觉数据(即图像和视频)中提取视觉事件及其论证角色。为了从视觉数据中训练事件提取器,我们通过使用18个与视觉概念相关的事件原语作为搜索关键词,在Youtube新闻频道上搜索,收集了一个名为Video M2E2的新数据集,其中包含1500对视频文章。我们对视频进行了大量的注释,并对关键帧进行了采样,用于注释参数角色的边界框。
我们的视觉事件和参数角色提取系统由一个事件分类模型(ResNet-50 (He等人,2016))和一个参数角色提取模型(JSL (Marasovi´c等人,2020))组成。为了提取时间和相关的参数角色,我们利用了一个名为“基于背景的情况”(SWiG)的公共数据集(Marasovi´c et al., 2020)来预训练我们的系统,SWiG是为基于对象的图像中的事件和参数理解而设计的,但它有不同的本体。我们将SWiG中的事件类型、参数角色类型和实体名称映射到我们的本体(涵盖12个事件子类型),以便我们的模型能够从图像和视频中提取事件信息。对于视频,我们以每秒1帧的帧率对帧进行采样,并将它们作为单独的图像处理。这样,我们就有了图像和视频输入的统一模型。
多模态事件共引用:我们进一步扩展了之前的视觉事件提取模型,以发现视觉事件和文本事件之间的共引用联系。对于检测到事件的视频帧,我们应用弱监督接地模型(Akbari等人,2019)来寻找帧与句子高度相似的句子和视频帧,表示与视频帧内容相似的句子内容。采用一种基于规则的方法来确定一个视觉事件提及和一个文本事件提及是否相互参照:(1)它们的事件类型匹配;(2)同一论证角色在不同模式下的实体类型不存在矛盾。(3)视频帧和句子的语义相似度较高。基于该管道,我们能够在事件图中添加可视化的事件来源。此外,我们能够向事件图添加仅可见的参数,这使事件图更具信息性
2.7 模式匹配
一旦我们通过模式归纳方法(Li等人,2020c)获得了一个大规模的模式存储库,我们可以将其视为提供了一个脚手架,我们可以使用传入的数据实例化来构建时间事件图。根据每个文档集群,我们需要从模式存储库中找到最准确的模式。我们进一步设计了一个模式匹配算法,可以将提取的事件、实体和关系与模式对齐。
我们首先对IE图和模式图进行基于时间关系的事件拓扑排序,从而得到按时间顺序线性化的事件序列。然后,对每一对IE图和模式图,应用最长公共子序列(LCS)方法寻找最佳匹配。我们的模式匹配考虑了相互引用和相互关系,当只考虑事件序列时,会破坏最优子结构。我们对算法进行了扩展,将子问题的最佳结果替换为一束具有排序的候选结果,排序来自考虑匹配事件、参数和关系的评分指标。候选对象由匹配的事件对组成,然后我们贪婪地匹配它们的参数和关系来得分。我们将最匹配的IE图和模式图合并,形成最终的实例化模式。
3、实验:
3.1 数据
我们进行了包括模式匹配和模式引导信息抽取的评估
3.2 量化性能
模式归纳。为了诱发图式,我们收集了描述与简易爆炸装置(IED)相关的复杂事件的维基百科文章,并应用我们的IE系统提取事件图。数据统计如表1所示。我们通过在训练数据的事件路径上应用路径语言模型(Li et al., 2020c)来归纳模式,并将排名靠前的路径合并到模式图中,以供人类管理。人工策划模式存储库的统计信息如表2所示。
Schema-guided信息提取。各部件性能如表3所示。在包含多语言多媒体文档集群的复杂事件语料库(LDC2020E39)上,我们评估了系统的端到端性能。数据统计如表4所示。我们在ACE 2005 (Walker et al., 2006)和ERE (Song et al., 2015)上训练我们的提及提取成分;ACE 2005 (Walker et al., 2006)和RAMS (Ebner et al., 2020)文档级参数提取;ACE 2005、EDL 20167, EDL 20178, OntoNotes (Prad-
han et al., 2012), ERE (Song et al., 2015), CoNLL 2002 (Tjong Kim Sang, 2002), DCEP (Dias, 2016) and SemEval 2010 (Recasens et al., 2010)的共同引用成分(Walker等);MATRES上的时间顺序分量(Ning等人,2018b);对视频M2E2和SWiG进行视觉事件和参数提取,我们输出的统计数据如表5所示。DARPA项目的第一阶段人类对25%系统输出的评估表明,大约70%的事件被正确提取。
3.3 定性分析
图2展示了从我们的端到端系统获得最佳匹配结果的示例子集。可以看到我们的系统可以提取事件、实体和关系,并将它们与所选的模式很好地对齐。最后实例化的模式是合并匹配元素的两个图的混合。
相关工作:文本信息提取。现有的端对端信息抽取(IE)系统(Wadden等人,2019;Li等人,2020b;Lin等,2020;Li等人,2019)主要关注从单个句子中提取实体、事件和实体关系。相反,我们在全局文档上下文中提取和推断参数。此外,我们的IE系统是由一个模式存储库指导的。提取的图将用于实例化一个模式图,该模式图可用于预测未来的事件。
多媒体信息提取。以前的多媒体IE系统(Li等人,2020b;Yazici等人,2018)只包括通过将提取的视觉实体接地到文本的跨媒体实体的相互引用分辨率。我们率先进行跨媒体联合事件提取和共引用解析,从文本、图像和视频中获取共引用事件。
指称相同分辨率:以前的事件相互引用解析的神经模型使用非上下文(Nguyen等人,2016;Choubey等人,2020;黄等人,2019年)或上下文单词表征(Lu等人,2020年;Y u et al., 2020)。我们融入了广泛的符号特征(Chen和Ji, 2009;Chen等人,2009;Sammons等人,2015;Lu, Ng, 2016, 2017;Duncan等人,2017),例如事件属性和类型,使用上下文相关的门机制,进入我们的事件共同引用解析模块。
时间事件排序。提取相邻事件在一句话中的时间关系(Ning等人,2017,2018a, 2019;Han等人,2019),忽略了跨句子事件之间的时间依赖性。我们执行文档级事件排序,并通过共享参数传播时态属性。此外,我们利用模式存储库知识,使用事件类型之间频繁的时间顺序来指导事件之间的顺序。
5 结论和未来工作
我们演示了一个最先进的模式引导的跨文档、跨语言、跨媒体的信息提取和事件跟踪系统。这个系统向公众开放,使用户能够有效地利用来自各种来源、语言和方式的丰富信息。未来,我们计划开发更先进的基于图神经网络的模式匹配和模式引导事件预测方法。
6、更广泛的影响
我们开发跨文档、跨语言、跨媒体的信息提取和事件跟踪系统的目标是推进最先进的技术,并增强该领域从多种来源、语言和方式充分理解真实世界事件的能力。我们相信,要在以事件为中心的自然语言理解方面取得真正的进展,我们不应该只关注数据集,还应该将我们的工作根植于现实世界的应用程序中。我们关注的应用程序是导航新闻,这里展示的例子和在论文中展示了潜在的应用在新闻理解。在我们的演示中,有益使用和有害使用之间的区别部分取决于数据。正确使用该技术要求输入的文件/图像是合法和合乎道德的获取。我们特别感到兴奋的是,这些技术可能用于具有广泛社会影响的应用,例如灾害监测和应急反应。训练和评估数据往往存在偏差,这限制了系统在代表性较差的人群和新领域中的准确性。在实验部分中报告的系统组件的性能是基于特定的基准数据集,这可能会受到数据偏差的影响。因此,关于普遍性和公平性的问题应仔细考虑。确保正确而非恶意地应用双重用途技术的一般方法应:在系统设计的每一步都将道德考虑作为一阶原则,在整个系统中保持数据、算法、模型和功能的高度透明度和可解释性。我们打算将我们的软件作为开源和共享的docker容器提供给公众进行验证和审计,并探索保护的对策去保护易受攻击的种群。