Utilizing Textual Information in KnowledgeGraph Embedding: A Survey of Methodsand Applications

摘要

将知识图(KG)的实体和关系映射到低维连续空间的抽象技术称为KG嵌入或知识表示学习。然而,大多数现有的技术仅基于KG中的事实来学习嵌入,同时也存在着KG的不完善和稀疏性的问题。近年来,由于文本提供丰富的语义信息,KG嵌入中的文本信息研究引起了广泛关注。因此,本文简要介绍了一种基于文本信息的KG嵌入技术。首先,我们分别从编码模型和评分函数的角度介绍了对文本信息的编码技术来表示实体和关系。其次,总结了在现有的嵌入技术中整合文本信息的方法。第三,我们讨论了基于文本信息的KG嵌入技术的训练过程。最后,将文本信息嵌入的KG在特定任务中的应用,如零镜头场景中的KG完成、多语言实体对齐、关系提取。

1.介绍

(i)基于文本的KG嵌入:对文本信息进行编码以表示实体和关系。然后利用基于文本的表示方法扩展现有的KG嵌入技术或单独完成嵌入任务。编码模型是通过在KG中最大化事实的整体似是而来学习的。(ii)文本改进的KG嵌入:与前者不同的是,没有制作与事实兼容的编码模型,而是用于构建基于文本的表示。文本信息被纳入现有技术的不同阶段,即初始化、扩充表示和联合嵌入,以达到更好的性能。

2.前提

2.1.表示法和定义

2.2KG事实嵌入

然后介绍了一些具有代表性的仅依赖于事实的嵌入技术,前人对这类技术进行了大量的研究。它们被证明是最先进的,被广泛地用作将任务嵌入文本信息的基础。这些工作可以捕捉到结构信息,为基于结构的嵌入提供依据。实体和关系直接表示为实值向量、矩阵或复值向量。定义了评分函数来评估事实的有效性。我们根据评分函数将他们分成两组。

2.2.1翻译模型

2.2.2语义匹配模型

2.2.3文本信息

原始文本

文本提到

实体描述

3.基于文本的KG嵌入

大多数基于文本的KG嵌入技术都是利用文本信息来扩展现有的仅包含事实的嵌入技术,并通过基于文本和基于结构的嵌入技术来表示实体或关系。近年来,由于表达式编码器的出现,仅代表[46]、[47]与文本信息的实体及其关系的研究开始出现。我们回顾了这些基于文本的方法,发现它们通常包含以下三个关键要素:(i)构建基于文本的实体和关系表示,(ii)定义包含基于文本表示的评分函数,(iii)训练编码模型并使其与事实兼容。本节从编码模型和评分函数两个角度介绍了该方法。训练程序的细节载于第五节。

3.1.编码模型

3.2构造评分函数

Utilizing Textual Information in KnowledgeGraph Embedding: A Survey of Methodsand Applications_第1张图片

Utilizing Textual Information in KnowledgeGraph Embedding: A Survey of Methodsand Applications_第2张图片

Utilizing Textual Information in KnowledgeGraph Embedding: A Survey of Methodsand Applications_第3张图片

5.模型训练与比较 

 Utilizing Textual Information in KnowledgeGraph Embedding: A Survey of Methodsand Applications_第4张图片

5.1损失函数

5.2负采样

5.3数据集

5.4模型比较

6.在KG相关任务中的应用

6.1链接预测

零样本设置

6.2实体分类

6.3三元组分类

6.3实体对齐

6.4关系抽取

6.5推荐系统

 

 

你可能感兴趣的:(知识图谱杂,人工智能,自然语言处理)