[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

ESWC 2018 EventKG: A Multilingual Event-Centric Temporal Knowledge Graph
Author Gottschalk, Simon,Demidova, Elena
paper https://arxiv.org/pdf/1804.04526.pdf
url http://eventkg.l3s.uni-hannover.de/

促进对网络、新闻和社交媒体上有关当代和历史事件的信息进行语义分析的关键要求之一是提供包含事件和时序关系的全面表示的参考知识库。现有的知识图谱,包括DBpedia、YAGO和Wikidata等,主要集中在以实体为中心的信息上,在事件和时序关系方面的覆盖率和完整性方面都不够。本文提出的EventKG是一个多语言的以事件为中心的时序知识图谱,解决了这个问题。EventKG包含了69万多个当代和历史事件以及230多万个时序关系,这些关系是从多个大型知识图和半结构化资源中提取出来的,并通过规范化的表示方式提供。

1 引言

动机:
有关具有全球重要性的当代和历史事件的以事件为中心的信息量,例如英国脱欧,2018年冬季奥运会和叙利亚内战等,在网络,新闻来源和社交媒体中不断增长。有效地访问和分析大规模的以事件为中心的时序信息对于语义网,自然语言处理和数字人文科学领域的各种实际应用至关重要。在语义Web和NLP中,这些应用程序包括问答[14]和时间轴生成[1]。在数字人文学科中,多语言事件库可以促进跨文化研究,旨在分析特定语言和特定社区对历史和当代事件的看法(这类研究的例子见[11]、[18])。此外,以事件为中心的知识图谱可以促进历史的重建以及随着时间的推移人们和组织的网络[19]。促进对当代和历史事件进行有效分析的关键先决条件之一是,提供有关事件,所涉及实体及其时序关系(即一段时间内有效的关系)的参考信息的知识库。

以事件为中心的现有信息源和时间信息的局限性:
当前,事件表示和时序关系分布在异构源中。首先,大型知识图谱(KGs)(即基于图的知识存储库[7],例如Wikidata [6],DBpedia [16]和YAGO [17])通常关注以实体为中心的知识。这些资源中包含的以事件为中心的信息通常不能被如此清晰地标识出来,它们可能是不完整的,并且主要限于命名事件和百科全书知识。例如,如下文第5节所述,在EventKG中包含的322669个事件中,只有18.70%使用dbo:Event在英语数据库里。此外,现有知识图中的事件描述通常缺少关键属性,例如时间和位置。例如,Wikidata中只有33%的事件提供了时间信息,而11.70%的事件提供了空间信息。其次,各种人工策划的半结构化资源(例如Wikipedia Current Events Portal(WCEP)[22]和多语种Wikipedia事件列表)都包含有关当代事件的信息。但是,这些事件中缺少事件和时序关系的结构化表示,这阻碍了它们通过语义技术直接用于现实应用中。第三,最近提出的包含从非结构化新闻源(例如[19])中提取的当代事件的知识图谱可能具有很高的噪声(例如[19]报告提取精度为0.55),尚未得到广泛采用。最后,可以在将来的工作中探索的以事件为中心的信息源是Web标记[21]和以事件为中心的网络爬虫[8]。总体而言,对于当代和历史事件及其可用于现实世界的时序关系的综合观点仍然缺失。提供EventKG将有助于克服这些限制。

EventKG&先进技术:
本文介绍的EventKG迈出了重要的一步,以促进对当前分布在以实体为中心的知识图谱和人工策划的半结构化源之间的事件和时序关系的全局视图。 EventKG 以一种有效的轻量级方式提取并整合了这些知识,并用附加的特性来丰富它,例如关系强度和事件流行度的指示,添加出处信息,并通过规范表示使所有这些信息可用。 EventKG遵循数据发布的最佳实践,并重用现有的数据模型和词汇表(如Simple Event Model [23]和DBpedia本体),通过应用语义技术和开放标准(如RDF和SPARQL),促进其在实际应用中的高效重用。 EventKG当前包括五种语言的数据源-英语(en),德语(de),法语(fr),俄语(ru)和葡萄牙语(pt)-并且是可扩展的。 EventKG的主要贡献如下:

  • 一个多语言RDF知识图谱,在V1.1中包含了超过69万个事件和230多万个时序关系,这些知识图是从几个大型的以实体为中心的知识图谱(即Wikidata、五种语言版本的DBpedia和YAGO)中提取的,以及WCEP和Wikipedia五种语言的事件列表。在下面,我们将这些用于填充EventKG的源称为参考源。EventKG的主要功能包括:
    - 提供以事件为中心的信息(包括历史和当代事件)和使用规范表示的时序关系
    - 对来自异构参考源的事件表示和关系进行轻量级集成和融合
    - 与单个参考源相比,事件表示的覆盖范围和完整性更高(见第5节)
    - 提供相互关联的信息,以便于评估关系强度和活动受欢迎程度
    - EventKG中包含的所有信息的出处
  • 一个开源提取框架,用于提取和维护EventKG的最新版本,可扩展到其他语言和参考源。

与其他现有资源的比较:
就我们所知,目前还没有专门的知识图谱来汇总与EventKG直接可比的历史和当代事件的事件中心信息和时序关系。以事件为中心和时序信息的数据模型和词汇表(如[12,19,20,23])的异构性、现有知识图谱的大规模性(事件在其中的作用微不足道)以及缺乏对以事件为中心的信息的清晰识别,使得识别、提取、融合和高效地分析以事件为中心的和时序的信息,并以直观和统一的方式使真实世界的应用程序能够访问这些信息变得很有挑战性。通过轻量级集成和融合来自不同来源的以事件为中心的时序信息,EventKG可以增加此信息的覆盖范围和完整性。例如,EventKG相应地将其包含的Wikidata事件的位置和日期的覆盖范围增加了14.43%和17.82%(有关更多详细信息,请参阅第5节中的表6)。此外,现有资源缺乏EventKG提供的结构化信息来判断事件的受欢迎程度和关联强度-由于Web上以事件为中心的时间数据和时态数据的迅速增加以及信息过载,该特性获得了关键的相关性。

2 相关性

与语义web社区和社会的相关性:
我们的社会面临着前所未有数量的事件,这些事件影响着跨越语言和社区边界的多个社区。在这种情况下,EventKG促进对以不同来源起源的以事件为中心的多语言信息的有效访问以及有效的歧义化和分析,对于包括语义网,NLP和数字人文科学在内的多个科学社区而言,这至关重要。 在语义Web社区的上下文中,EventKG的应用领域包括以事件为中心的问题解答和基于排名的时间线生成,这些时间线生成需要评估事件的受欢迎程度和关联强度。在数字人文科学中,EventKG作为以多种语言为中心的以事件为中心的存储库,可以为跨文化和跨语言以事件为中心的分析提供独特的资源(例如[11],[18]中所示),同时减少了数据提取,集成的障碍和融合。

与问答应用程序的相关性:
在问答领域(QA)[14],当前的研究重点是从以自然语言构成的用户查询生成形式化查询表达式(例如,SPARQL查询语言)以及QA和语义搜索[24],[4]的交互方法。当前,研究主要针对可以使用流行的以实体为中心的知识图谱(例如DBpedia)回答的问题。有了EventKG,就可以针对事件相关的问题,例如“ 1980年在华盛顿发生了哪些与比尔·克林顿有关的事件?”和基于排名的问题,例如“在阿勒颇发生的与叙利亚内战有关的最重要事件是什么?”

生成时间线的相关性:
时间线生成是一个活跃的研究领域[1],其重点是从知识图谱中为实体生成事件和时序关系的时间轴(即按时间顺序排列的选择)。EventKG可以帮助生成包含来自不同来源的补充信息的详细时间线,从而可能导致更完整的时间线和事件表示。例如,表1显示了使用EventKG生成的时间轴上的一段摘录,用于查询“1941年2月12日至2月28日期间第二次世界大战有哪些次事件?“。表1中时间轴中的第一个事件(“Erwin Rommel arrives in Tripoli”)摘自英文维基百科事件列表(“1941 in Germany”)中,没有包含在用于填充EventKG(Wikidata、DBpedia和YAGO)的任何参考知识图谱中。其他三个事件的参考来源包括补充信息。例如,虽然“Action of 27 February 1941”在维基数据中被指定了一个开始日期,但它与第二次世界大战没有关联。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第1张图片

跨文化以事件为中心分析中事件流行度和关系强度的评估:
事件流行度和事件与实体之间的关系强度因不同的文化和语言环境而不同。例如,表2列出了俄语版和英语版维基百科中最受欢迎的4个事件,这些事件在各自的维基百科版本中被链接的频率是多少。虽然两个维基百科语言版本都提到了全球重要事件,但在这里,最常见的两次世界大战,其他最受欢迎的事件(如“十月革命”和“美国内战”)是特定语言的。在特定的语言环境中,事件和实体之间的关系强度可以通过计算它们在维基百科中的联合引用来归纳。例如,表3以不同的语言版本列出了与第二次世界大战最相关的人员。 有关事件受欢迎程度和关联强度的信息可以根据布局限制选择最相关的时间轴条目(例如EventKG包含第二次世界大战的2,816个子事件)。 [10]中介绍了EventKG在跨语言时间轴生成中的应用。 使用EventKG授权的界面可以用作识别争议事件的起点,并使用MultiWiki等工具进行更详细的分析。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第2张图片
支持采用语义Web技术的影响:
**EventKG遵循数据发布的最佳实践,并依赖于开放数据和W3C标准,使数据可用于各种实际应用程序。**我们相信,在语义Web社区之外使用EventKG的研究人员,例如在NLP和数字人文领域,将受益于W3C标准的采用,如RDF、SPARQL和已建立词汇的重复使用,从而促进语义Web技术的采用,例如在信息提取方面,媒体分析和跨文化研究。

3 EventKG数据模型

EventKG数据模型的目标是促进从参考源提取的异构事件表示和时序关系的轻量级集成和融合,并使这些信息可用于真实世界的应用程序。EventKG数据模型由以下目标驱动:

  • 通过规范表示定义事件的关键属性。
  • 表示事件和实体之间的时序关系(包括事件-实体、实体-事件和实体-实体关系)。
  • 包括量化和进一步描述这些关系的信息。
  • 表示事件之间的关系(例如,在事件系列的上下文中)。
  • 支持事件表示和来自异构源的时间关系的高效轻量级集成。
  • 为EventKG中包含的信息提供出处。

EventKG schema 和 Simple Event Model:
在EventKG中,我们以简单事件模型(SEM)[23]为基础对事件进行建模。 SEM是一种灵活的数据模型,提供了以事件为中心的通用框架。 在EvenKG模式(命名空间eventKG-s)中,我们采用附加的属性和类来充分表示从参考源中提取的信息,以对时间关系和事件关系建模并提供出处信息。 EventKG的架构如图1所示。
EventKG schema基于SEM,空心箭头表示rdfs:subClassOf,常规箭头表示属性的定义域和值域限制,其他重用词汇中的术语用绿色标记,EventKG 中引入的类和属性被涂成橙色。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第3张图片
事件和实体:
SEM提供了一个通用的事件表示,包括事件的主题、地理和时间维度,以及与参与者(即参与事件的实体)的链接。 这些资源在命名空间eventKG-r中标识。因此,SEM和EventKG模式的关键类是sem:Event表示事件,sem:Place代表地点,sem:Actor表示参与事件的实体。每个类都是sem:Core的一个子类,用于表示EventKG中的所有实体。(注意EventKG中的实体不一定是事件的参与者;两个实体之间具有时间关系也是可能的)。事件通过sem:hasPlace属性和其中的位置相连。一个sem:Core实例可以分配一个存在的时间,通过 sem:hasBeginTimeStampsem:hasEndTimeStamp表示。除了SEM表示方式之外,EventKG还提供有关从参考源(包括标签)中提取的事件和实体的文本信息(rdfs:label),别名(dcterms:alternative)以及对事件的描述(dcterms:description).

时间关系:
时间关系是在特定时间段内有效的关系。 在EventKG中,它们包括事件-实体,实体-事件和实体-实体关系。 事件和实体之间的时间关系通常将事件及其参与者联系起来(如SEM中)。两个实体之间时间关系的一个典型例子是婚姻。实体之间的时间关系也可以间接地捕获有关事件的信息[19]。例如,DBpedia属性 http://dbpedia.org/property/acquired 可以用来表示一个公司被另一个公司收购的事件。SEM中的时间关系仅限于参与者在事件上下文中扮演特定角色的情况。这产生了两个局限性:(i)当实体作为主语时,不可能对事件和宾语之间的时间关系进行建模。例如,不能直接建模“巴拉克奥巴马”参与“巴拉克奥巴马第二次就职”活动的事实,因为实体“巴拉克奥巴马”在这一关系中的角色是主语;(ii)不能直接建模婚姻等两个实体之间的时间关系。为了克服这些限制,EventKG引入了类eventKG-s:Relation,它链接两个sem:Core实例(每个代表一个事件或一个实体)。这个关系可以用一个有效时间和一个描述关系特征的sem:RoleType属性来注释。这样,可以表示实体对之间的任意时间关系或涉及实体和事件的关系。图2使用EventKG数据模型可视化了上述示例。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第4张图片
间接时间信息的关系:
关系的时间有效性并不总是被明确地提供,但通常可以根据参与者实体或事件的存在时间来估计。例如,可以使用子实体的出生日期来确定“母亲”关系的有效性。因此,除了具有已知有效时间的时间关系外,只要提供两个实体的存在时间,EventKG还包括与事件相关的关系以及与实体相关的关系。

其他事件和实体关系:
事件之间的关系(特别是子事件、上一个事件和下一个事件的关系)在事件序列(如“夏季奥运会”)、包含许多相关事件的季节(例如在体育运动中)或与某个主题相关的事件(如军事冲突中的作战)中起着重要作用。子事件关系使用so:hasSubEvent属性来建模。在一系列事件中,如奥林匹克运动会的顺序,使用dbo:previousEventdbo:nextEvent将事件相互联系起来。位置层次结构是通过属性so:containedInPlace提供的。

关系强度与事件流行度的衡量:
衡量事件和实体之间的关系强度和事件的流行度可以回答类似“谁是事件最重要的参与者?”这样的问题或者“最受欢迎的事件是什么?”。我们在EventKG模式中包含两个相关因素:

  1. Links:此因子表示一个实体的描述引用另一个实体的频率。直观地说,这个因素可以用来估计事件的流行程度和它们之间关系的强度。在EventKG中,links因子通过eventKG-s:-Relation域中的谓词eventKG-s:links来表示。eventKG-s:links表示代表关系主语的Wikipedia文章链接到表示宾语的实体的频率。
  2. MentionseventKG-s:mentions表示外部源中引用的关系数。直观地说,这个因子可以用来估计关系强度。在EventKG中,eventKG-s:mentions表示Wikipedia中同时提到关系的主语和宾语的句子数。

来源信息:
EventKG提供以下来源信息:(i)实例资源的来源;(ii)引用来源的表示;以及(iii)表达式的来源。

  • 实例资源的来源: EventKG资源通常直接对应于参考源中包含的事件和实体(例如,EventKG中代表Barack Obama的实体对应于DBpedia资源http://dbpedia.org/page/Barack_Obama)。在这种情况下 owl:sameAs属性用于链接两个资源。EventKG资源也可以从资源集合中提取。例如,2007年的哲学事件可以从维基百科事件列表 https://en.wikipedia.org/wiki/2007_in_philosophy中提取。在本例中,EventKG属性eventKG-s:-extractedFrom用于在EventKG资源和从中提取该资源的资源集合之间建立链接。通过出处URI,可以访问参考源中包含的背景知识。
  • 引用来源的表示: EventKG和每个参考源都通过void:Dataset表示。名称空间eventKG-g中的此类实例包含源的特定属性(例如,其创建日期)。
  • 表达式的来源: EventKG中的语句表示为四元组,包含三元组和它所属的命名图的URI。通过命名图,EventKG提供了一种直观的方法来检索使用SPARQL查询从各个参考源提取的信息。

4 EventKG生成

EventKG生成管道如图3所示。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第5张图片
输入: 首先,收集参考源的转储
事件的识别和提取: 在参考源中识别并提取事件实例,如下所示:

  • 步骤1a:事件的识别和提取
    - Wikidata:我们将事件标识为Wikidata的“event”和“occurrence”的子类。添加““occurrence””实例以提高召回率。一些已识别的子类被手动列入黑名单。
    - DBpedia:对于每个语言版本,我们将DBpedia事件标识为dbo:Event或它的子类
    - YAGO:由于事件子类别噪声太多(如event > act > activity > protection > self-defense > martial art),我们不使用YAGO本体进行事件识别。YAGO事件在步骤Ib中识别。
    - Wikipedia Event Lists:对于每种语言,我们使用类似于[13]的方法从Wikipedia事件列表中提取事件,这些事件的标题包含时间表达式,例如“2007 in Science”和“August 11”。

    我们在DBpedia和Wikidata中手动评估了这一步骤中确定的事件的随机样本,包括每千克100个事件和语言版本,平均精度达到98%。

  • 步骤1b:使用额外的事件识别启发式来提高召回率。
    首先,我们使用现有的owl:sameAs链接在参考源中传播有关已识别事件的信息。其次,我们使用与手动定义的依赖于语言的正则表达式相匹配的Wikipedia类别名称(例如,以“events”结尾的英语类别名称)表明与此类文章相关的KG条目是一个事件。我们在100个与英文和俄文维基百科相关的事件中随机抽取了100个事件,并对其进行了人工评估,准确率分别达到94%和88%。

在EventKG V1.1中,我们没有明确区分单个事件(如“Solar eclipse of August 10, 1915”),季节相关的事件(如“2008 Emperor’s Cup”)和事件系列(如“Mario Marathon”)。

事件和实体关系的提取:
我们提取了以下类型的关系:1)基于时间有效性信息的有效性来识别时间关系。时态关系是从YAGO和Wikidata中提取的,因为DBpedia不提供此类信息。2)与间接时间信息的关系:我们提取所有涉及事件的关系以及已知存在时间的实体之间的关系。3) 其他事件和实体关系:我们使用一个手动定义的映射表来识别在EventKG中表示事件关系的谓词,比如so:hasSubEvent(例如,如果属性用于连接事件,我们将Wikidata的part of属性(P361)映射到 so:hasSubEvent),dbo:previousEventdbo:nextEventso:containedInPlace用于提取位置层次结构。我们基于Wikipedia互连,为包含至少一个事件的每对互连实体,提取量化关系强度和事件受欢迎程度的信息。仅当实体参与提取的关系时,才提取实体。

集成:
从引用源提取的语句包含在命名图中,每个命名图对应于一个引用源。此外,我们还创建了一个命名图eventKG-g:event_kgeventKG-g:event_kg中的每个sem:Eventsem:Core实例集成来自与等效realworld实例相关的参考源中的以事件为中心和以实体为中心的信息。对于从KG中提取的实例,owl:sameAs链接被使用。利用基于描述、时间和链接的基于规则的方法对从半结构化源中提取的事件进行集成。

融合:
在融合步骤中,我们使用基于规则的方法聚合eventKG-g:event kg事件的时间,空间和类型信息。

  • 位置融合:对于eventKG-g:event_kg中的每个事件,我们从不同的参考源中获取其位置的并集,并利用so:containedInPlace关系将该集合减小到最小(例如,集合{巴黎,法国,里昂}简化为{巴黎,里昂})。
  • 时间融合:对于具有已知存在或有效时间戳的每个实体、事件或关系,使用以下规则进行整合:(i)如果有其他日期可用,忽略开始或结束时的日期的时间单位(例如1月1日); (ii)在参考源中进行多数表决; (iii)从可信源获取时间戳(顺序为:Wikidata,DBpedia,Wikipedia,WCEP,YAGO)。
  • 类型融合:我们在参考源中根据DBpedia本体(dbo)提供rdf:type信息,使用类型和owl:sameAs链接。

输出:
最后,根据EventKG数据模型,提取的实例和关系用RDF表示(见第3节)。如上所述,在单独的命名图中提供从每个参考源提取的信息和融合步骤的结果。

5 EventKG特征

在EventKG V1.1中,我们从截至12/2017的每个参考源的最新可用版本中提取了五种语言的事件表示和关系。表4总结了从03/2018发布的EventKG V1.1中选择的统计信息。总体而言,此版本提供了超过69万个事件和超过230万个时间关系的信息。将近一半的事件(46.75%)来自现有的KGs;另一半(53.25%)来自半结构化资源。各个命名图中的数据质量直接对应于参考源的质量。在eventKG-g:event kg中,大多数事件(76.21%)具有已知的开始或结束时间。提供了占事件总数12.21%的位置。位置覆盖范围可以在以后的工作中进一步增加,例如使用NLP技术从事件描述中提取位置。除了超过230万个时间关系之外,EventKG V1.1还包括事件与时间之间不可用的实体之间的关系。这样一来,整个关系就超过了8800万。这些关系中大约有一半具有相互联系的信息。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第6张图片

5.1 EventKG与参考源的比较

我们将EventKG与它的参考源进行比较,以确定事件的数量及其表示的完整性。事件识别步骤Ia的结果如表5所示。包含690247个事件的EventKG包含的事件数远远高于其任何参考源。这尤其是由于KGs和半结构化源的集成。

表6给出了EventKG及其参考知识图谱(Wikidata、YAGO、DBpedia)中事件表示的比较。正如我们所观察到的,通过整合以事件为中心的信息,EventKG:1)能够更好地识别事件(例如,我们可以将322669个事件从EventKG映射到Wikidata,而最初在Wikidata中只有266198个被标识为事件-见表5),2)提供更完整的事件表示(即,与最完整的参考源Wikidata相比,EventKG提供了更高百分比的具有特定时间和空间信息的事件)。最常见的事件类型依赖于源代码(见表7)。

5.2 关系与融合统计

超过230万个时间关系是EventKG的重要组成部分。 EventKG中的大多数常用谓词,例如“运动队成员”(882,398关系),“遗产指定”(221,472),“获得奖项”(128,125)和“保留职位”(105,333)都来自Wikidata。 YAGO的时间关系中最大的部分是谓词“plays for”(492263),指的是足球运动员。 其他YAGO谓词(如“has won prize”)的频率较低。 总体而言,大约93.62%的时间关系的起始时间为1900年至2020年。从KG中提取的事件的81.75%被多个来源覆盖。 在融合步骤中,我们观察到具有已知开始时间的事件的93.79%与不同来源上的开始时间一致。
[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph_第7张图片

5.3 文字说明

EventKG V1.1包含五种语言的信息。总的来说,从KGs中提取的事件中有87.65%提供了英文标签,而只有一小部分(4.49%)提供了所有语言的标签。在从半结构化资料中提取的367578件事件中,只有115件用所有五种语言描述,例如1981年航天飞机首次发射。这表明在今后的工作中,有可能进一步丰富多语种的事件描述。

6 可重用性

为了促进EventKG的高效重用,我们提供了下载资源,以及通过SPARQL端点提供的资源。EventKG的主页提供了资源的全面文档,包括示例查询。图1给出了EventKG的模式图。EventKG是用RDF建模的,具有高度的可扩展性。 例如,可以包括更多的语言并定制参考数据源的选择。最近的研究表明,互连是数据集重用的一个重要因素[5]。在这个程度上,EventKG提供了与其参考源的大量互连

目前,EventKG的预期用途包括在创新的以事件为中心的问答应用程序的背景下,与诸如ALEXANDRIA(用于以事件为中心的数据丰富Web档案)和WDAqua ITN等欧盟项目的合作。我们相信,由于EventKG的独特性和普遍适用性,EventKG将在未来被许多社区的第三方广泛重用,如第2节所述。

EventKG遵循数据发布的最佳实践。它使用RDF W3C标准对包含的数据进行建模和互连。 EventKG采用开放数据和开放源代码方法,使其可以被广泛使用,并促进数据和软件的重用。 EventKG支持数据的多种语言,提供可解除引用的URI,并实施一种持久策略以在各个版本中维护其URI,以确保相同URI被一致地重用于相同的实际对象。

EventKG重用并扩展了已建立的事件模型,即SEM[23]来描述它所包含的与事件相关的信息,并重用现有的词汇表(例如DBpedia ontology,Dublin Core)。EventKG元数据是使用VoID词汇表提供的。EventKG遵循FAIR标准,使其可查找、可访问、可互操作和可重用。EventKG描述可以在EventKG主页上以人类和机器可读的格式提供。

7 可用性和可持续性

可用性方面: EventKG使用开放标准,在CC BY 4.0 license下的持久URI下公开可用。EventKG主页提供有关引用资源的信息。根据MIT License,我们的提取管道在github上作为开源软件提供。

可持续性计划: 通过三个构建块确保EventKG的可持续性:1)开源架构和软件:为创建EventKG而开发的软件是开源的,可供社区重新使用,以提取新版本的知识图谱,或者扩展资源以包含更多引用源、语言或事件属性。2)现有公共可用数据的集成:作为EventKG中数据基础的参考源是公开的,其中许多由社区维护,因此可以维护资源的新版本,特别是包括新事件。3) EventKG的维护:作者计划定期执行EventKG更新。EventKG资源的URIs将得到维护,并在不同版本之间保持稳定。

8 相关工作

事件的数据模型和词汇表: 几个数据模型和相应的词汇表(例如[12,19,20,23])提供了对事件建模的方法。例如,Rospocher等人提出的ECKG模型。[19] 启用细粒度文本注释来对从新闻集合中提取的事件进行建模。简单事件模型(SEM)[23],schema.org[12] 和事件关联开放描述(LODE)本体[20]提供了描述事件并将其与参与者、时间和地点联系起来的方法。在EventKG中,我们建立在SEM的基础上,并扩展此模型来表示更广泛的时间关系,并提供有关事件的附加信息。

提取以事件为中心的信息: 大多数用于自动知识图构建和集成的方法集中于实体和相关事实,而不是事件。示例包括DBpedia[16]、Freebase[2]、YAGO[17]和YAGO+F[3]。相反,EventKG关注事件和时间关系。在[22]中,作者从WCEP中提取事件信息。EventKG在这项工作的基础上构建了WCEP事件。

从新闻中提取事件和事实: 最近,已经解决了直接从纯文本新闻中构建知识图谱[19]和从新闻中提取命名事件的问题[15]。这些方法应用开放式信息抽取方法,并进一步发展,以解决新闻领域事件抽取中的具体挑战。自动从新闻中提取事件的最新技术可能会获得噪音大且不可靠的结果(例如,文献[19]中最先进的提取方法报告的准确度仅为0.551)。相比之下,EventKG中包含的当代事件来自于手工策划的资源,如WCEP和Wikipedia事件列表。

9 结论

在本文中,我们提出了一个多语言知识图谱EventKG,它整合并协调了关于历史和当代事件的以事件为中心的和时间的信息。EventKG V1.1包括超过69万个事件资源和超过230万个时间关系。EventKG的独特之处包括在单一的知识图谱中对结构化和半结构化的多语言事件表示和时间关系进行轻量级的集成和融合,以及提供信息以便于评估关系强度和事件流行度,同时提供出处。轻量级的集成能够显著增加所包含事件表示的覆盖率和完整性,特别是在时间和位置方面。

你可能感兴趣的:(论文)