多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

一、Richpedia是一个图像多模态知识图谱,顾名思义实体分为了文本实体和图像实体,由这些实体构成三元组。论文介绍了Richpedia的建立过程,包括了数据收集、图像处理和关系挖掘。
多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph_第1张图片
                                                            图1 构建流程

1、数据收集:
      text实体来自Wikipedia,图像是通过Google,Yahoo和Bing来搜索text实体爬取的。Wikipedia中每个实体包含了唯一的IRI,文中提到将这些IRI添加到Richpedia,而非实体本身。最终一共收集了20638个关于城市、景点和名人的实体。(这里用IRI的原因就是为了后期使用的时候可以直接在Wikipedia上查询)
      对于图像实体,直接从Wikipedia收集,然后在Richpedia创建对应的IRIs。作者一共收集了2883162个实体的图像,平均每个实体保留99.2个。
      收集完两种实体,生成三元组,文中生成了三种三元组。第一种,(ei, rp:imageof, ek)图像实体ei是KG实体ek的图像。(图像与文本的关系imageof);第二种,(ei, rp:attribute, l),l是ei的视觉特征(算是“属性-值”);第三种,(ei, rp:relation, ek),图像实体之间的关系,其中relation是一个笼统表示,可以换成“包含、等价、相似等”具体关系。这三种关系,前两种在爬取数据的时候可以直接定义保存,第三种文中利用维基百科中的相关超链接和文本来发现。

2、图像处理:
      明白一件事事儿,从网上爬照片的时候,网站给出的照片是相关度top n的n张照片,图谱中保留的照片应该是高质量的,即相关度高且多样性。图像处理可以分为两个阶段,第一个是多样性检测,第二个是计算一些不同的像素级视觉描述符。
      首先用了聚类算法(无监督),基于视觉特征的K-means来过滤噪声,然后用特征向量(VGG16)计算余弦相似度sim(ei, e j) = cos (H(ei), H(e j)),误差平方和来选择K的值。
在这里插入图片描述(实验时K=6)
      对于每个图像集群,图像保留规则:得分最高的top1,与top1距离最大的作为top2,与top1和top2距离最大的作top3.同时会生成图像实体的attribute(size,pixel以及一些像素级特征)。
      计算视觉描述符:

  • 灰度直方图 :每个图像实体生成一个256维的描述向量。
  • 颜色布局:
  • 颜色矩:
  • 灰度共生矩阵:
  • 定向梯度直方图:

3、关系挖掘(很重要,主要是第三种图像之间的三元组):
      图像是由text实体搜索而来的,所以图文关系一目了然,图像实体之间的语义关系可以利用维基百科中的相关超链接和文本来发现。文中以rp:contain和rp:nearBy举例的。
      基于规则的关系挖掘。。。。。。。作者距离中定义了三个规则,还没仔细琢磨呢。。。。

具体实施部分就不阐述了。。。。。。
”**************************************************************************************“

  • 关于本体:
    多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph_第2张图片                                                        Richpedia本体

1、Image是一种抽象资源(url链接到图片),下边是一个例子,伦敦眼的图像实体表示:多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph_第3张图片
2、下边是一个图像的描述关系的例子,rpo:Descriptor,通过关系rpo:visual Descripte链接到rpo:image,其中rpo有五个子类(就是上文提到的灰度、颜色、纹理、边缘等描述图像)多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph_第4张图片
3、还有一种RDF来表示图像相似度的关系:
多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph_第5张图片

总结:

      主要了解了一下Richdepia的构建过程,论文后边一些相关工作什么的没看。重难点工作在Image实体之间关系的发掘,需要设定规则的,根据维基百科上的文本和链接来发现一些潜在的关系,这些关系是事先定义的。

你可能感兴趣的:(知识图谱,人工智能)