多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)

本文主要对Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph这篇论文中的 第2.2节Richpedia images processing (图像处理)以及 第2.3 Richpedia relation discovery(关系挖掘)进行内容抽取介绍,最后介绍了一下关于这篇多模态知识图谱文章的2个具体用例,,也是防止我忘记自己曾看过这篇论文,,,记一记啊记一记或许还有救…

Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

个人理解:这篇文章其实就是主要讲解了多模态知识图谱Richpedia的构建过程,主要介绍了包括对KG实体、图像实体的数据获取,以及对图像实体的去噪处理和多样性检测的方法(用K-means聚类算法),和关系挖掘等内容。当然还有其他内容,见目录结构

1.摘要部分

多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)_第1张图片
介绍了Richpedia,旨在通过向Wikidata中的文本实体分发足够多的不同图像来提供全面的多模态知识图谱。基于Wikipedia中的超链接和描述,在图像实体之间设置资源描述框架链接(视觉语义关系)。Richpedia资源可通过刻面查询端点在Web上访问,该端点为知识图谱和计算机视觉任务(如链接预测和视觉关系检测)提供了路径。

2.文章主要结构层次如下:

多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)_第2张图片
以上2.2包含(3.5、3.6两个部分),而3.7是对2.3进行详细介绍~写一笔,箭头标了一下,清楚不少

3.Richpedia的构建

获取数据与处理部分(主要是对获取到的图像的处理)

  1. 对城市KG实体的获取
  2. 对景点KG实体的获取
  3. 对名人KG实体的获取
  4. 对与相应的KG实体的图像实体的获取

前3点不是重点,这里主要讨论第4点,对图像实体的的获取以及处理(因为作为多模态知识图谱,最理想的图像实体不仅是相关的,而且是合理多样的,主要是为了解决这两个问题)

对与相应的KG实体的图像实体的获取过程(倒是获取到了,不过图像存在一些问题):

选择谷歌、雅虎、必应图像搜索引擎和维基百科作为图像实体收集工具,因为可以互补地使用不同的搜索引擎来满足知识图的完整性。选择Wikipedia是因为它包含Wikidata中KG实体的图像,以及这些实体之间的大量相关超链接和描述性信息。我们使用KG实体列表作为爬虫程序的输入,爬虫程序通过浏览器自动化测试框架Selenium收集和存储相应的图像实体。对于每个KG实体,分别从三个图像搜索引擎收集100幅图像,并将它们存储在相应KG实体的文件中。同时,我们生成每个实体的唯一标识符。对于维基百科中的数据收集,我们在相应的上下文中抓取带有超链接和描述的图像。然后,我们将信息存储在JSON文件中。通过上述步骤,收集了构建Richpedia所需的图像实体资源。由于我们的图像是从搜索引擎获得的,不同的搜索引擎可能会返回重复的图像;事实上,某些KG实体语义可能更遥远。这将导致一些返回的搜索图像可能不符合我们的要求。我们使用图像聚类算法完成图像去噪任务

问题1(PROBLEM):

问题描述:从web搜索引擎收集的一些远程实体条目在搜索时可能不会返回相应实体的图像,但类似高频条目的图像可能不值得。为了保证我们的多模态知识图的准确性,我们需要使与相应的KG实体相关的所有KG实体拥有尽可能多的图像实体。因此,采用无监督聚类算法(K-means )对图像实体去噪。

具体过程:

  1. 先用VGG-16神经网络模型提取图像的结构化特征(因为有噪声的图像实体与和实体相关的图像实体间在结构上有差距);
  2. 再用K-means去除有噪声的图像实体;
  3. 最后用PCA进行图像实体特征向量的降维(最终降到三维)

其中 VGG-16神经网络模型的结构如下:
多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)_第3张图片

问题2(PROBLEM):

问题描述:经过去噪处理后,我们可以根据对应的KG实体之间的高相关性得到图像实体。 这就是为什么我们需要检测图像实体的多样性的原因。为了获得更好的查询结果,图片搜索引擎会对返回的图片进行评分,优先返回评分较高的图片,因为越相似的图片可能会出现不同或相同的搜索引擎。但是,这些图像在搜索引擎中的得分相似,因此它们会一起返回到搜索结果中。但作为多模态知识图谱,最理想的图像实体不仅是相关的,而且是合理多样的
综上所述,我们需要检测图片实体的多样性,过滤掉过于相似的图片实体,保证Richpedia的图片多样性。

读到这里我们可能对实体多样性的理解不是很清楚,文中举出的有关于实体多样性的例子:比如,(我们想要的是圈出的部分,而不是最右边部分的图像)
多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)_第4张图片
具体过程:利用图像实体特征向量的余弦相似度,可以得到图像实体之间的视觉相似度,进而得到聚类结果。

  1. 首先,选择聚类树的根节点,即聚类得分最高的图像实体。
  2. 然后选择与前一个图像实体相似度最低的图像实体以确保多样性,遍历所有聚类树,并为每个正确的聚类簇选择20个图像实体。

个人总结:总的来说,进行图像处理主要包括对图像进行去噪处理(把那些与KG实体不相关或没多大关系的图像实体去除掉),以及对图像实体的多样性检测(经过去噪后的图像实体“过于相似”,选取那些不是很相似但又与KG实体高度相关的图像实体)。从而达到构建多模态知识图谱Richpedia的目标:图像实体不仅是相关的,而且是合理多样的。

关系挖掘部分:(三元组)

关系发现是构建多模态知识图谱的关键步骤。
它利用非结构化信息通过NLP技术提取和推断图像实体之间潜在的语义关系,建立分散的图像实体之间的连接关系,实现实体之间的关系互联。

文中主要挖掘如下三种关系:

  1. 图像与实体的imageof关系:主要由Richpedia中的文件结构建立。由于图像实体存储在相应的文本知识图谱实体文章中,因此很容易使用文件结构信息生成这种关系。
  2. 图像实体与图像视觉层次信息之间的attribute关系:主要由任何图像实体的视觉特征构成,如rpo:height、rpo:width等。
  3. 图像实体与图像实体之间的视觉语义关系(可能是包含、相似):主要依靠图像描述和超链接信息来建立图像实体的语义关系

4. 文章最后介绍了2个用例

通过知识图谱构建后,对其应用:

图14:可以在Richpedia中查询实体信息,包括图像实体和KG实体。例如,如果我们想要查询Ankara市的KG实体信息和图像实体信息,我们可以在下拉选择器中选择相应的Ankara标签。之后出现的页面的上半部分是Ankara的KG实体信息,下半部分是Ankara的图像实体。

图15:可以通过Richpedia的在线访问平台查询图像实体之间的视觉语义关系,例如,当我们想要查询一个与Beijing Zoo图像实体具有arpo:sameAs关系的图像实体时,我们可以单击该图像实体并获得如图15所示的结果。
多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)_第5张图片

你可能感兴趣的:(知识图谱,python,知识图谱,算法)