知识图谱是一种普遍存在的数据结构,已被应用于许多领域。知识图谱推理是根据知识图谱中已有的信息发现或推断知识。然而,大多数现有的工作都属于 point-wise 方法,这些方法对一条线索执行推理。
point-wise
是一种常见的评估和处理文本数据的方法。Point-wise方法将文本数据转化为单个数据点的形式进行处理和评估。
在文本分类任务中,point-wise方法将每个文本样本视为一个独立的数据点,并为每个数据点分配一个标签或分数。这样,可以使用常见的机器学习算法(如支持向量机、逻辑回归等)对每个数据点进行独立的分类或评分。这种方法的优点是简单直观,易于理解和实现。
例如,在情感分析任务中,point-wise方法将每个句子或文本片段视为一个数据点,并为其分配一个情感标签(如正面、负面、中性)。然后,可以使用分类算法对每个数据点进行情感分类。
知识图谱的比较推理侧重于推断多条线索的共性和不一致性,这是一个新的研究方向,可以应用于许多应用。
在本文中,我们正式给出了比较推理的定义,并提出了几种不同的方法来处理 成对(pairwise) 和集合情况下的比较推理。
pair-wise
和List-wise方法与point-wise方法相对, Pair-wise方法考虑了两个数据点之间的关系,例如比较两个文本的相似性或排序。List-wise方法则将整个数据集作为一个整体进行处理,例如在搜索排序中考虑整个文档列表的排序。
所提出的方法的思想是,我们从知识图谱中找到一个知识片段来最好地表示给定声明的语义,并根据它给出理由。并真实世界的数据集上进行了广泛的实证评估,以证明所提出的方法具有良好的性能。
知识图谱是一种普遍存在的数据结构,用于存储真实世界的实体及其关系。
自2012年首次亮相以来,已经提出了几种广泛使用的知识图谱,包括Yago、Wikidata、Freebase等。过去几年来,旨在发现或解释现有知识或从知识图谱中的现有信息推断新知识的知识图推理已成为一个重要的研究方向。
尽管在学术界和工业界都取得了巨大的成就,但现有的知识图谱推理工作大多属于point-wise(点式)方法,对一条线索(例如,三元组、多跳查询、复杂查询图)进行推理。例如,在事实核查中,给定一个主张(例如,表示为知识图谱的三元组),它决定该主张是真实的还是伪造的。然而,比较推理很少被研究。不同于点式推理(或在知识图谱上的推理),知识图谱上的比较推理侧重于对多条线索推断共性和(或)不一致性(例如关于一篇新的文章的多条声明),这是知识图谱推理上的新的研究方向并且可以广泛的应用于众多领域,例如事实核查。
与逐点(单一声明)事实核查相比,比较推理具有许多独特的优势。这是因为在许多真实世界的情况下,例如,多模态假新闻检测,单独的单一声明事实核查是不够的,而比较推理提供了关于输入线索的更完整的画面,这反过来帮助用户发现通过逐点方法看不见的细微模式(例如不一致性)。
当我们同时验证两个声明(或三元组)时,如果我们单独评估,即使每个声明(三元组)组本身是一致的,结果也可能不一致。
假设有一篇 多模态新闻的文章 ,我们希望验证它的真实性。为此,分别从给定的新闻中提取了两个查询图。一个查询图形包含来自文本的所有信息,另一个包含来自图像的信息。如果我们执行点式推理来分别检查这两个查询图中的每一个,那么两者似乎都是真的。然而,如果我们同时对两个查询图进行推理,并通过比较,我们可以发现它们之间微妙的不一致性(即,不同的飞机类型,最大飞行距离的差异)。此外,比较推理还可以用于知识图的扩展、集成和完成。
“Multi-modal news”(多模态新闻)
是指结合多种媒体形式(如文本、图像、视频、音频等)来呈现新闻内容的方式。
本文解决了比较推理的问题。主要关注两个问题:成对比较推理和集体比较推理。
具体而言,我们应对以下两个关键挑战:
这篇论文的主要贡献:
首先介绍符号——本文中将使用的符号,然后介绍其他重要概念和比较推理的正式定义。
给定多条线索,比较推理的目标是推断它们的共性和(或)不一致性。
如果给定的信息是一对线索,则称之为成对比较推理或成对策略检验。目的是推断这两条线索是否连贯。
如果给定的信息是一个连接的查询图,那么目标是检测给定图内部是否存在不一致。这个问题被称为集体比较推理或集体事实核查。
与传统的点推理方法不同,比较推理可以揭示一些点推理方法可能忽略的微妙模式。以基于知识图的事实核查为例,考虑两种声明(三元组):(巴拉克·奥巴马,哈佛大学毕业)和(巴拉克·奥巴马,政治学硕士)。即使每一条线索(说法)都是真实的,但如果我们同时检查它们,我们可以看到它们不可能都是真的。这是因为巴拉克·奥巴马在哈佛大学学习时主修法律而不是政治学。因此,如果不适当地将不同的线索/主张放在一起检查,我们可能无法发现它们之间的不一致。
为了便于比较推理,如何利用知识图中的背景信息是一个重要的问题。
如果我们能在知识图谱中找到一个子图,它能最好地表达每个输入线索的语义,那么隐藏的冲突就更容易被检测到。理想情况下,这个子图应该包含知识图中与给定线索相关的所有有意义/重要的实体和关系。我们称之为子图 知识段,其形式定义如下:
知识图谱中能够最好地表述一条线索的语义的连接子图。
可以看到,用知识片段来表达给定的线索可以帮助我们毫不费力地发现不一致性。
对于成对的案例来说,这种共性指的是两个知识片段的相同元素。不一致性包括相互矛盾的任意元素。
两个三元组的共性是指这两个三元组共享的点和边,也是两个知识片段共享的点和边。
两个知识片段中任何相互矛盾的元素(节点、节点属性、边)
在一个查询图中的任意三元组之间的共同点也就是集体共同性
在一个查询图的所有知识片段中相互矛盾的任何元素
给出一个知识图谱和两个三元组,输出关于这两个三元组一致性的二元决策
给出一个知识图谱和一个查询图,输出关于查询图一致性的二元决策
本节将介绍如何对抽取知识段,以最好地表达给定术语的语义。
首先介绍了如何将知识图转换为关系指定的加权图,并介绍了如何从中提取特定于边的知识段(Edge-specific KS)和特定于子图的知识段(Subgraph-specific KS)。
知识段提取的目的是抽取一个子图,该子图能够最好地表达给定线索的语义。目前已经提出了许多现有的方法来提取加权图或未加权图中从查询边的源节点到其目标节点的简明子图。
然而,这些方法并不直接适用于知识图,因为知识图的边(即谓词)具有特定的语义(如类型、关系)。为了解决这个问题,我们试图通过设计用于知识段提取的谓词-谓词相似性(Predictate-Predictate Similarity)度量,将知识图转换为加权图。
为了将知识图转化为加权图,我们提出使用基于TF-IDF的方法来测量不同谓词之间的相似性,并将知识图转换为一个加权图,其边缘权重表示边缘谓词和查询谓词之间的相似度。
基于TF-IDF的方法的关键思想是,将知识图中的每个三元组及其相邻的三元组视为一个文档,并使用类似TF-IDF加权策略来计算谓词相似度。例如,谓词receiveDegreeFrom可能有相邻谓词major和graditeFrom。这些谓词具有高度的相似性。
具体而言,使用知识图谱来构建一个谓词的同时发生矩阵(co-occurence maxtrix of predicates),并且通过类似TF-IDF加权策略计算他们的相似度。
对于Predictate-Predictate Similarity来说,假设我们想计算major和study的相似度。major和study都只有一个相邻谓词graduate。这意味着谓词i ≠graduate,同时发生矩阵U(major,i)=U(study,i)=0。
特定边的知识片段提取旨在找到一个知识片段来最好地表征给定边的语义上下文(即三元组)。
对于带权图,存在几种连接子图提取方法,例如,使用基于重新启动的随机行走方法来找到近似子图;使用最大网络流来寻找子图,旨在寻找更密集的局部图分区。
在本文中,将知识图转换为带权图后,我们找到了从给定查询边的主体到对象的k-simple最短路径作为其知识段。
根据特定边知识段提取的思想,我们在给定的子图中的每个边缘提取一个知识段,并将包含所有边缘特定知识片段的图称为图特定知识片段。换言之,子图特定知识段由多个相互链接的边缘特定知识段组成(即,输入查询子图的每条边缘对应一个边缘特定知识片段)。
特定子图知识段提供了更为丰富的语义,包括查询图的每条边的语义和输入查询图的不同边之间的关系的语义。
首先介绍什么情况下我们需要对两条线索(两个边或三元组)使用成对推理,然后介绍了两种侧重于成对推理的方式。最后,我们提出了集体比较推理。这些功能背后主要思想就是,使用知识段来表达每一个查询三元组的语义,并且根据知识段中的信息检查不一致性。
同时满足:
进一步,如果它们的object是两个不相关的实体,那这两条线索大概率是不一致的。
基于以上观察,我们采取以下三个步骤进行配对比较推理。
给定一对线索中属于C3或C4的两个知识段,我们将每个知识段视为一个属性图,并采用 网络对齐(network alignment) 的一些思想来促进比较推理。
基本思想是,如果两个知识段是一致的,那么它们的大多数节点必须能够在嵌入空间中相互对齐或接近。否则,不一致节点的嵌入距离应该过大。通常,不一致性检查问题类似于嵌入空间中的异常检测或相异性检测问题。
网络对齐(Network Alignment)
指在两个或多个不同的网络之间,通过找到节点之间的对应关系,将这些网络进行对齐或匹配的过程。这个概念通常用于图论和网络科学中,用于比较和分析不同网络之间的相似性和关联性。
在对一对知识段进行推理时,我们考虑两种信息:结构信息和语义信息。
例如,空军一号和直升机具有相似的结构信息,因为它们有许多共同的邻居,但它们的语义非常不同,这可能表明这两个知识片段之间存在潜在的不一致。
另一方面,尽管空军一号和直升机有不同的结构信息(在考虑边缘类型时),但它们也有不同的语义信息。这提示它们指的是不同的事物。
受此启发,我们提出了一个同时考虑知识片段的结构信息和语义信息的神经网络模型,以实现成对的比较搜索。
为了对结构相似性进行编码,我们使用 随机游动重启(Random Walk with Restart)(考虑边缘类型)对知识片段的结构信息进行编码。
Random Walk with Restart(随机游走重启)
是一种图算法,用于在图中进行节点排序或推荐任务。它结合了随机游走和重启机制,通过模拟节点之间的随机游走来计算节点之间的相似度或相关性。
在随机游走过程中,从一个起始节点开始,根据一定的概率选择下一个节点进行扩散。重启机制会定期将游走的节点重置为起始节点,以防止游走过程过于远离起始节点。这样做可以平衡节点的局部和全局信息,使得算法能够在节点之间进行有效的传播和探索。
Random Walk with Restart常用于图中的节点排序和推荐任务。通过计算节点之间的相似度或相关性,可以将节点按照重要性进行排序,或者根据节点之间的相似性为用户进行推荐。
给定一组 锚节点(anchor node),随机游动重启将计算跟每个锚节点有关的知识段中每个节点的分数。如果两个节点具有相似的随机游动重启得分向量,则它们的结构相似性应该很高。
为了对知识片段的语义信息进行编码,我们从知识图谱中抽取一些路径,并将每条路径视为一个句子,知识图中的节点可以视为句子中的单词。如果两个节点出现在同一个句子中,它们的语义信息应该相似。