Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

背景:
语义网络的发展,各种知识图谱利用资源描述框架在Web上发布,使不同的实体之间的RDF链接可以用来构建一个大型的异构图,同时,视觉资源集的公众可及性有了很大的发展,在知识图谱的研究过程中,视觉资源还有很大的利用空间。一般知识图谱只关注于文本事实,学术界中缺乏完整的多模态知识图谱,这将阻碍未来多模态融合的研究,由此提出了Richpedia。
Richpedia通过向wikidata中的文本实体分布充分多样的图像来提供一个全面的多模态知识图谱,根据维基百科中的超链接和描述设置图像实体之间的视觉语义关系。Richpedia可以通过面向的查询端点在web上访问。Richpedia将全面的可视化关系资源注入到一般知识图谱中,建立了一个大的、高质量的多模态知识图谱数据集;提出了一个新的框架来构建多模态知识图谱,首先从wikidata、wikipedia和search engine收集实体和图像,通过独特的模型对图像进行过滤,根据wikipedia中的超链接和实体描述在图像实体之间分配RDF链接;将Richpedia作为开放资源发布,回答更丰富的可视化查询,进行多关系链接预测。
Richpedia的构建过程可以分为数据收集、图片处理和关系挖掘
Richpedia数据收集:
不同于传统的知识图谱,我们目的在于构建一个包含丰富图像实体及其关系的多模态数据集,从以下几个方面来填充Richpedia:从wikidata中收集知识图谱中的实体;从wikipedia中收集部分图像实体,以及收集到的KG实体与图像实体之间的关系,同时根据维基百科中的超链接和相关描述,发现图像实体之间的潜在关系;设计网络爬虫来收集每个KG实体相关的足够的图像实体。
根据定义,我们需要收集两类实体(知识图谱实体和图像实体)来生成Richpedia三元组。我们需要为每个实体创建国际化的资源标识符(wikidata中包含每个实体的IRI,将这些IRI添加到知识图谱实体中);
对于图像实体,直接从wikipedia中收集图像,在Richpedia中创建匹配的IRI,从开源的资源中获取了足够的图像,并进行过滤,为每个图像实体创建IRI;
三元组产生:在Richpedia中创建三种类型的三元组:image of、attribute、relation,其中每个IRI都是独有的,可以在进行数据收集的时候产生三元组image of、attribute,对于relation将使用wikipedia中的超链接和文本来发现关系。
Richpedia 图像处理:
收集图像实体后,需要处理构建高质量的图像,图像数据来自于开放资源,理想中的图像实体不仅需要知识图谱中的实体高度相关,还需要具有多样性,同时也不可避免存在重复性的图像实体,因此需要采用基于K-means聚类的方法过滤,通过VGG-16深度神经网络提取图像中的视觉特征向量,通过误差平方和来选择K的值,对于每个图像簇,收集top-20的图像,视觉得分最高的被选为排名最高的图像,第二幅图像是与第一幅图像距离最大的图像,第三幅图是与前两幅图像距离最大的图像。获取得到图像后,通过计算一些不同视觉描述符(图像的灰度直方图描述符、颜色布局描述符、颜色矩描述符、GLCM描述符、梯度描述直方图),通过使用这些描述符来计算图像之间的相似度。
Richpedia关系挖掘:
利用维基百科中的相关链接和文本来发现图像实体之间的语义关系,通过三种规则来提取最终的关系:
(1)描述中有一个超链接,从stanford coreNLP的描述中检测关键字,通过关键字与预定义关系本体之间的字符串映射算法发现关系,例如:在两个实体之间的文字描述中得到”left“,将得到”near by“关系。
(2)描述中有多个超链接,基于语法分析器和语法树,以核心实体作为输入,简化为规则1.
(3)如果没有超链接,使用Stanford coreNLP查找wikipedia文章中所附的相关的KG实体,将情况简化为规则1和规则2.规则3适用于NER结果,其质量低于带注释的超链接,优先级低于前两个规则。
构建的过程:
1、城市实体的收集,利用SPARQL结构化查询语言从wikidata中提取出城市实体,并且选择属性为“城市”的实体,获得所有实体的名称及其对应的wikidata标识符。将城市实体与wikidata标识符存储在一个特定的JSON文件中,对每个城市KG实体,将其他信息如每个城市的国家、城市总面积、城市总人口、时区等,也存储在相应的JSON文件中。
2、景观实体收集,从携程网站中收集城市景点信息,以城市实体为起点,获取每个城市KG实体前30名的景观城市。爬取地点、开放时间和相关景点的简要介绍。
3、名人实体的收集,从wikidata中收集名人实体列表,利用SPARQL结构化查询语句查询语言选择属性为“human”的实体进行过滤,剔除不合格的名人KG实体,最终确定了名人KG实体列表,同时还有实体的一些属性信息等存储在JSON文件中。
4、与KG对应的图像实体的收集,选择图像搜索引擎谷歌、雅虎、必应和wikipedia收集图像,三个搜索引擎可以互补来满足知识图谱的完整性,wikipedia中包含KG实体的图像,以及实体之间的大量超链接和描述性信息。
5、噪声图像实体的过滤,让所有的KG实体拥有尽可能多的与相应的KG实体相关的图像实体,采用图像聚类算法来过滤掉噪声图像,使用VGG-16提取图像的结构特征,将图像实体的特征向量表示为三维,选择K-means算法来实现聚类滤波(图像没有标签信息,流行的深度学习网络对图像进行标签化困难较大,训练集的训练效果不好)
6、多样性挖掘,过滤出过于相似的图像实体,保证Richpedia的图像多样性,选择月前一个图像实体相似度最低的图像实体来保证多样性。
7、关系挖掘,通过自然语言处理技术提取和推断图像实体之间潜在的语义关系,KG实体与图像实体的第一类关系主要由Richpedia中的文件结构建立(图像实体存储在对应的文本结构的实体中),第二类关系图像实体与图像视觉层次信息之间的属性值(如高度、宽度等)、第三类关系是图像实体之间的视觉语义关系,依靠图像描述与超链接信息来构建。
结果:
提供在线访问平台,在Richpedia中查询实体信息,查询图像实体之间的视觉语义关系。
总结:
多模态知识图谱Richpedia的构建过程:从互联网上根据文本知识图谱收集图像,通过多样性检索模型对图像进行过滤,根据维基百科中的超链接和描述设置图像实体之间的RDF链接,建立了一个大的、高质量的多模态知识图谱数据集,作为开放资源公布,提供了查询端点。
优点:
构建了一个大的,质量高的多模态知识图谱,同时考虑了图像实体之间的多样性。
缺点:
基于已有的知识图谱构建,Richpedia中的实体从wikidata中进行提取(wikidata中的实体根据在wikipedia中有实体之间的链接和描述性信息创建)

你可能感兴趣的:(自然语言处理,知识图谱,人工智能,深度学习)