The Microsoft Academic Knowledge Graph- A Linked Data Source with 8 Billion Triples of Scholarly Dat

本文由德国卡尔斯鲁厄技术学院(KIT)AIFB研究所的学者迈克尔·费伯发表

内容简介:
介绍Microsoft学术知识图谱,数据集在开放数据共享归属许可下授权。通过将数据作为RDF转储文件提供,并在链接的开放数据云中提供具有可解析的URI的链接以及与其他链接的链接数据源,将大量学术数据带入Web。本文提供了一个大型RDF数据集,该数据集基于Microsoft学术知识图谱,Microsoft不以图谱的形式提供数据,每数周会提供大型数据库转储。存储和处理这些数据集具有许多阻碍,通过丰富MAG数据和提供数据作为RDF知识图谱和及其预训练的实体嵌入,使潜在MAG数据用户不会有这些阻碍。

现有RDF数据集的局限性:1、很小;2、仅覆盖少数几个实体类型;3、仅覆盖特定科学领域,4、覆盖数据主要来自单个发布者;5、过时。

主要内容:

  • 以带有描述的文本文件形式将MAG所有数据转换到RDF,同时重复使用常用词汇并序列化N-Triples格式。

  • 将资源链接到Web上的其他数据源,例如DBpedia,Wikidata,OpenCitations 和全球研究标识符数据库(GRID)。

  • –提供了MAKG,托管于http://ma-graph.org[1]。

创建过程
原始MAG数据转储主要是为数据处理而设计,基于转储文件创建RDF图谱必须对数据格式和数据建模重大更改,下面为转换过程中最关键的步骤。

  • 论文:科学论文元数据是MAG数据集的核心。原始MAG数据转储的Papers.txt包含与论文直接相关的信息。根据 FABIO本体中涵盖的文档类型为每个出版物的表示文档类型建模。此外,还以URI的形式表示有关论文的相关期刊、会议系列和会议实例的信息,以便提供关于实体的事实。

有关MAKG中代表论文的更多信息来自以下转储文件:

  • PaperAbstractInvertedIndex.txt:对存储在MAG中的一小部分论文,其摘要是可用的。仅提供摘要作为JSON对象,其中键表示令牌位置,值表示令牌字符串(即一个反向索引)。我们还原索引并将论文摘要作为文字信息添加到图谱。
  • PaperLanguages.txt:论文通常都有一种指定的写作语言。
  • PaperUrls.txt:将每篇论文的网址作为每篇论文的URL包含在图谱。MAG转储中提供的URL不直接链接到论文,而链接到论文出版商提供的登录页面。
  • 作者:论文作者的信息,包括作者姓名、最近从属关系、论文数量和引用数量。
  • 从属关系:在图谱中,提供相关论文作者的单位,这些信息是从属关系。与其他文件转换类似,在字面情况下使用适当的数据类型将数据转换为RDF语句。在可能的情况下,按照实体表示为URI的链接数据原理实体将字符串值转换为URI。
  • 场合:MAG数据转储提供了关于会议和期刊的信息。
  • 会议实例代表提交论文的单个事件:除会议名称,在MAKG中代表了每个会议实例的各种属性位置,网站,时间信息。
  • 会议系列以带有其名称事实的URI表示,论文数,引用次数和排名(根据MAG数据集)。
  • 期刊在RDF中使用有关名称的建模,ISSN号、出版商、主页、论文数、被引频次数、MAKG内的排名。
  • 科学概念的分类:MAG中的论文被分配到特定的研究领域和概念。
  • 引用和参考。有关哪些论文参考的信息其他哪些论文可作为PaperReferences.txt获得,可直接转换为RDF三元组,参考论文位于数据集“外部”。

创建owl:sameAs语句
除MAKG核心数据集之外,还将MAKG实例链接到opencitation和 /ikidata实例。这些映射是通过匹配论文数字对象标识符(DOls)创建。

  1. OpenCitations:在OpenCitations Corpus中建模的论文与在MAKG中建模的论文之间创建15,666,233个映射。对映射,使用了OpenCitations中论文的URI。

  2. Wikidata:在Wikidata中建模的论文与在MAKG中建模的论文中之间创建5,472,038个映射。只有Wikidata的论文是提供DOI的互连候选对象。具有owl:same的Wikidata论文作为与MAKG的链接。

  3. Microsoft学术知识图谱的关键统计:MAKG的作者数超过论文数,而且论文引用比也更高。

  4. 链接数据集说明和等级:初始MAG数据由Microsoft在开放数据共享区下提供许可证(ODC-BY),授予用户添加值和重新分发的权利。
    除MAG RDF文档,提供以下链接的数据设置说明:
    – OWL:以OWL文件的形式提供本体,描述所用的类,对象属性和数据类型属性。
    – VOAF:通过“朋友词汇”(VOAF)丰富了本体描述符。 VOAF是VoID19的扩展,用于将本体链接到其他词汇,以及将词汇表引入链接的开放社区。
    – VoID:提供了一个VoID文件描述与RDF关联的数据集模式词汇。
    根据链接数据上下文中的两种5星级评分方案对MAKG进行分类
    – Tim Berners-Lee针对开放数据的五星级部署方案:根据计划,本文的MAKG
    RDF数据集是五星级数据集,使用RDF(4星)的数据集,并将实体URI链接到DBpedia,Wikidata,OpenCitations和GRID,以及我们对其他人的词汇链接到URI词汇(5星)。
    –关联数据词汇星级:评级对在链接(开放)数据中使用词汇。通过提供OWL文件,将词汇链接到其他词汇,及通过创建VOAF文件,可为词汇表提供4星。

Microsoft学术知识图谱实体
除了创建和提供MAKG数据集和服务之外,还计算MAKG实体的嵌入,在各种场景中实体嵌入作为隐式知识表示很有用。

使用MAKG作为链接开放数据云的链接数据源。因为MAKG是链接开放数据云的一部分,并且包含到其他数据源的链接,它对在数字图书馆环境下使用关联数据作出了重大贡献。特别是,通过使用 SPARQL端点,用户和机器可执行一些查询,这些查询的负担更少。MAKG可被认为是链接数据上下文中可信度的数据中心、因为它包含关于声明的论文(及作者)的元数据。

两个例子:
1.基于引用的任务,例如引用推荐,通常依赖于自然语言处理,需要隐式或显式表示论文,研究人员和机构。在MAKG的情况下,可以使用现有的RDF图嵌入方法轻松地生成论文和其他实体的嵌入。
2实体链接描述了将文本短语链接到图谱实体的任务,用MAKG可开发出优于词袋模型的语义搜索系统

将MAKG用于数字图书馆任务。MAG已经除其他方法外,还用于引文分析以及论文和研究人员的影响分析。原始的MAG数据也与 Aminer数据相结合,形成开放引用图。未来,基于开放数据的链接推荐系统可使用MAKG作为底层数据库来推荐论文或引文。由于RDF数据格式,MAKG可以很容易地与这些新的结构化数据集组合在一起。使用MAKG进行基准测试,由于MAKG很大,所以包含各种信息如数据的不确定性,并定期更新,MAKG数据满足大数据的“ 4 V”,所以MAKG也可能适用于评估方法和基准系统。

[1]托管方式:
1、每隔几月在http://ma-graph.org,Zenodo和Amazon S3公开NT文件;
2、可解析MAKG的URI,允许MAKG是链接开放数据云的一部分;
3、在三重存储中为所有MAKG数据建立索引,并使其通过SPARQL端点公开可用。

你可能感兴趣的:(The Microsoft Academic Knowledge Graph- A Linked Data Source with 8 Billion Triples of Scholarly Dat)