论文解读:《COGKGE: A Knowledge Graph Embedding Toolkit and Benchmark for ...》

论文名称全称:《COGKGE: A Knowledge Graph Embedding Toolkit and Benchmark for Representing Multi-source and Heterogeneous Knowledge》 多源异构知识表示的知识图嵌入工具与基准

概述

概述

该文章阐述了一种多源异构知识表示的知识图嵌入工具,文章第一作者Zhuoran Jin所在机构为中国科学院的自动化研究所模式识别国家实验室,该篇文章发表于2022年ACL(自然语言处理方向的顶级会议)。

摘要

本文提出了一种知识图嵌入(KGE)工具包,用于表示多源、异构的知识。对于多源知识,与现有方法主要关注实体为中心的世界知识不同,CogKGE还支持以事件为中心的世界知识、常识知识和语言知识的表示。对于异构知识,除了结构化的三元组外,CogKGE还利用额外的非结构化信息(如文本描述、节点类型和时间信息)来提升嵌入的意义。此外,CogKGE旨在为KGE任务提供统一的编程框架,并为下游任务提供一系列的知识表示。作为一个研究框架,CogKGE由核心模块、数据模块、模型模块、知识模块和适配器模块五个部分组成。作为一个知识发现工具包,CogKGE提供了经过预处理的嵌入式人员来发现新事实、聚类实体和检查事实。此外,我们构建了两个新的基准数据集:EventKG240K和CogNet360K,用于进一步研究多源异构KGE任务。我们还发布了一个在线系统,以可视化的方式发现知识。源代码、数据集和预训练的嵌入在GitHub上公开提供,并配有一个简短的指导视频。
在线系统地址:http://cognlp.com/cogkge/
GitHub地址:https://github.com/jinzhuoran/CogKGE/
指导视频地址:https://youtu.be/BiA2Rm9JYKs/

介绍

近年来,知识图谱(KGs)经历了快速发展。大量的知识图谱已经建立并成功应用于许多现实世界的应用。大多数知识图谱最初是以三要素(h,r,t)的形式组织的,其中h和t表示头和尾实体,r表示h和t之间的关系。然而,知识图谱是一个符号系统,不能直接应用于大规模的深度学习框架。为此,人们提出了一系列知识图谱嵌入(KGE)模型,将实体和关系表示为连续空间。
为了促进KGE模型的发展,一些引人注目的KGE工具包已经发布,如OpenKE、Graphvite、LibKGE、PyKEEN和Pykg2vec,为一系列KGE模型提供了易于使用的框架。然而,它们中的大多数仅仅基于实体相关的三元组来执行嵌入任务,所以它们仍然限于实际应用中的两个关键挑战:多源挑战和异构挑战。
至于多源挑战,现实世界中的KG不仅涉及世界知识(包括以实体为中心的知识和以事件为中心的知识),而且还涉及语言知识和常识性的知识。在各种实际应用中,我们需要同时使用多源知识。例如,如图1所示,为了理解一篇关于 "尼尔-阿姆斯特朗 “的文章,我们需要(1)以实体为中心的世界知识,例如,来自维基数据的 “尼尔-阿姆斯特朗在NASA工作”;(2)以事件为中心的世界知识,例如来自维基数据的"尼尔-阿姆斯特朗是阿波罗11号登月事件的参与者”;(3)语言知识,例如,来自FrameNet的 "参与 "的语言框架;(4)常识知识,例如,来自ConceptNet的 “火箭用于飞往月球”。然而,大多数现有的工具包只关注于表示世界知识,特别是以实体为中心的知识,而忽略了其他知识,如常识性知识和语言学知识。因此,开发一个能够代表多源知识的工具包是非常必要的。
至于异构性挑战,现实世界中的知识图谱不仅涉及三元组,还涉及其他信息,如文本描述、节点类型和时间信息。在许多实际应用中,我们应该把这些异构性的知识放在一起使用。同样,如图1所示,要理解一篇关于 "尼尔-阿姆斯特朗 "的文章,除了结构化的三元组,我们还需要:(1)文本描述,如 “尼尔-阿姆斯特朗是人类第一个登上月球的人”;(2)节点类型,如 “尼尔-阿姆斯特朗是一名宇航员”;(3)时间信息,如 “内尔-阿姆斯特朗从1962年到1971年参加了阿波罗11号登月”。所有这些异质性的知识都可以用来获得嵌入,但传统的KGE模型不能充分利用上述的额外信息。因此,我们非常希望能有一个工具箱,通过即插即用的知识适配器来连接这些异质知识。
为了解决上述两个问题,我们提出了一个知识图谱嵌入工具包,旨在表示多源和异构的知识。该工具包由五个部分组成,包括核心模块、数据模块、模型模块、适配器模块和知识模块。CogKGE目前支持17个模型、11个数据集、5个评价指标、4个知识适配器、4个损失函数、3个采样器和3个内置数据容器。此外,我们还构建了两个大规模的基准数据集以促进对KGE的研究。综上所述,我们的主要特点和贡献如下 贡献如下:

  • 多来源和异构性的知识表示。CogKGE探索了来自不同来源的知识的统一表示。此外,我们的工具包不仅包含基于三元组的嵌入模型,而且还支持额外信息的融合表示,包括文本描述、节点类型和时间信息。
  • 全面的模型和基准数据集。CogKGE已经实现了四类17个经典的KGE模型,包括翻译距离模型、语义匹配模型、基于图神经网络的模型和基于转换器的模型。除了9个内置的公共数据集,我们还发布了两个新的大型基准数据集,用于进一步评估KGE方法,称为EventKG240K和CogNet360K。
  • 可扩展和模块化的框架。CogKGE为KGE任务提供了一个编程框架。基于可扩展的架构,CogKGE可以满足模块扩展和二次开发的要求,预训练的知识嵌入可以直接应用于下游任务。
  • 开放源代码和在线演示。除了工具包,我们还发布了一个在线CogKGE演示,以直观地发现知识。源代码、数据集和预训练的嵌入都可以在GitHub上公开获得。

系统架构

图2显示了CogKGE的整体系统结构。顶部部分由核心模块和数据模块组成。前者是工具包的基础,后者则提供基本的数据容器、加载器和处理器。底部是建立在顶部的基础上,模型模块包含很多内置的模型,知识模块整合了多源和异质的知识,而适配器模块则是两者之间的桥梁。
论文解读:《COGKGE: A Knowledge Graph Embedding Toolkit and Benchmark for ...》_第1张图片

小结

在本文中,我们提出了CogKGE,一个用于表示多源和异构知识的知识图谱嵌入工具箱和基准。对于多源知识,CogKGE探索了世界、常识和语言知识的统一表示。对于异构知识,CogKGE结合了结构化和非结构化的知识来增强嵌入的意义。到目前为止,我们已经实现了17个经典的KGE模型。除了9个公共数据集,我们还发布了两个新的基准数据集,用于进一步评估KGE模型。此外,由于可扩展和模块化的架构,CogKGE不仅是一个KGE研究框架,也是一个知识发现库。除了工具包,我们还发布了一个在线系统,以直观地发现知识。在未来,更多的模型、基准数据集和知识适配器将被纳CogKGE。

你可能感兴趣的:(NLP,知识图谱,人工智能)