多模态融合论文阅读笔记

文章目录

  • 前言
  • 一、Richpedia: A Comprehensive Multi-modal Knowledge Graph
    • 1.整体构造方法
    • 2.发现实体之间关系的方法
    • 3.实体关系的类别
    • 4.感悟
  • 二、Multi-modal Knowledge-aware Event Memory Network for Social Media Rumor Detection
    • 1.整体构造方法
    • 2.多模态融合方法
    • 3.感悟
  • 总结


前言

本文为阅读多模态融合相关论文的一点笔记,主要记录与多模态信息融合相关的内容,为今后利用融合后的多模态信息进行一些应用做知识储备。
主要阅读文献为:
1 Richpedia: A Comprehensive Multi-modal Knowledge Graph ;
2. Multi-modal Knowledge-aware Event Memory Network for Social Media Rumor Detection ;


一、Richpedia: A Comprehensive Multi-modal Knowledge Graph

东南大学认知智能研究所提出的一种构造多模态知识图谱的方法,并且成功的构造出了Richpedia知识图谱,具体发布的网站:http://richpedia.cn/。

这篇论文主要侧重于构造多模态的知识图谱,观其结果,简单来说,就是构造了实体包含了图片的知识图谱,并且将实体之间的链接做的很好。

1.整体构造方法

整体构造方法总结为一句话就是:扩充现有的知识图谱使其变为多模态知识图谱,收集与实体相关的图片,使现有的知识图谱关联更多的图片),然后寻找图片与图片之间的关系。(即,收集数据+图像处理+关系发现=Richpedia)

2.发现实体之间关系的方法

在论文2.3讲述了发现图像实体之间语义关系的方法,即利用一张图片配套的文本来发现图片内多个实体之间的语义关系
规则1. 如果在描述中有一个超链接,其指向的对应Wikipedia实体的概率很高。
我们利用Stanford CoreNLP检测描述中的关键字。然后,通过字符串映射算法发现预定义关系。例如,如果我们在两个实体之间的文本描述中得到单词‘left’,我们将得到‘nearBy’关系。
规则2. 如果描述中有多个超链接,我们基于语法分析器和语法树检测核心知识图谱实体(即描述的主体)。然后,我们以核心知识图谱实体作为输入,将这种情况简化为规则1。
规则3. 如果在描述中没有指向其他词条的超链接,我们使用Stanford CoreNLP来查找描述中包含的Wikipedia知识图谱实体,并将这种情况简化为规则1和规则2。因为规则3依赖于NER结果,准确率低于相应的预标注超链接信息,所以它的优先级低于前两个规则。

3.实体关系的类别

关系发现是构建多模态知识图的关键步骤。本文使用非结构化信息通过NLP技术提取和推断图像实体之间潜在的语义关系,建立分散图像实体之间的连接关系,实现实体之间的关系互联。论文3.7节讲述了实体之间的几种关系:
1.KG实体与image实体之间的第一类关系主要是通过Richpedia中的文件结构来建立的。
由于图像实体存储在相应的文本知识图形实体文章中,利用文件结构信息很容易生成这种关系。
2.第二类关系是图像实体与图像视觉层次信息之间的属性值,主要是由任何图像实体的视觉特征构建的,如rpo:高度、rpo:宽度等。
3.第三种关系是图像实体之间的视觉语义关系。我们主要依靠图像描述和超链接信息来构建图像实体之间的语义关系。详细的规则描述见第二步。

4.感悟

这篇论文中利用图片的配文来识别图片中所包含的实体之间的关系,我个人觉得这个方法挺有用的,属于利用一种模态的信息来辅助另一种模态信息的推理。

二、Multi-modal Knowledge-aware Event Memory Network for Social Media Rumor Detection

这篇论文利用多种模态的信息(文本+图像+知识图谱)来进行谣言检测,简单理解就是,在判断网络发帖可信度的时候,结合文章配图与先验知识(知识图谱)来进行分析。

1.整体构造方法

1 捕获整个帖子的语义信息(多模态融合)。
传统的做法是用NLP对文本进行分析,而作者提出了多模态知识感知的网络(MKN),将词嵌入、视觉嵌入、知识嵌入视为多个堆叠的通道(就像有3个通道的彩色图像一样),同时保持它们的对齐关系,以生成帖子的表示
2 增强特征
为了抽取出event-invariant特征并增强谣言检测模型的能力,我们提出了事件记忆网络(EMN),在捕获事件独立(event-independent)的隐层话题信息的整个训练过程中,建立起额外的共享记忆。
3. 谣言检测
通过1和2得到多模态知识感知的表示和event-invariant特征,以形成事件表示,最终输入到深层神经网络(DNN)中以用于谣言检测。

2.多模态融合方法

第一步MKN的方法,即如何融合多种模态的信息。
MKN处理其文本内容、图像内容和背景知识,并将他们对齐为CNN中不同的输入通道,以将其合并到帖子的表示学习中。MKN由4部分组成:1)文本编码器;2)知识编码器;3)视觉编码器;4)最终的多模态知识感知CNN
整体架构如图所示:
多模态融合论文阅读笔记_第1张图片1 文本编码器将文本映射为单词向量的序列,然后利用Bi-GRU(常用于抽取中文关系)来获取上下文信息,将两个方向的隐层表示拼接,得到最终的隐层表示
2 知识编码器从知识图谱中蒸馏出(distill)背景知识,以补充短文本帖子的语义表示。先从文本中识别出知识实体,然后利用实体链接技术与知识图谱中的实体进行关联,最后利用知识图谱得到文本中的每个实体的相关属性。
3 视觉编码器将帖子的视觉内容作为输入,并生成帖子的加权视觉特征。用19-layer VGGNet来抽取出图像特征。(单词指导的视觉注意力模块。)将图像特征和文本编码器得到的单词特征输入到单层的神经网络中,并经过softmax函数,以生成在图像N个区域上的注意力分布。
4 多模态知识感知CNN。上述三步让帖子中的单词与(单词表示+知识嵌入+视觉嵌入)相关联,然后作者提出多通道和文字知识视觉对其CNN用于结合帖子的所有信息,也就是所谓的多模态知识感知CNN。
对于每个句子S,采用三通道输入,词嵌入不变,只是嵌入和视觉嵌入通过连续的转换函数从原始空间映射到词嵌入的空间,同时保留他们的原始空间关系。
多模态融合论文阅读笔记_第2张图片
G为多通道的输入,使用多个卷积核抽取特定区域,然后激活,在feature map上使用max-over-time池化操作以选择最大的特征,最终得到融合后的特征。

3.感悟

在阅读这篇论文时我将重点放在了它的前半部分,即多模态信息融合这一块理论上来说,利用这种融合手段的结果实现可以做很多事情,但是这种方法属于将特征进行融合,不同维度的信息融合后处理的结果可能并没有想象中那么好。


总结

大概理解了一点多模态融合的方法,
一种是将特征进行融合,类别第二篇论文的三通道输入,将其中两个通道的特征在保持原本空间信息不变的基础上映射到第三个通道上,以此来实现多模态融合,我个人觉得这种方法不太好。
另一种是基于推理的办法来融合,比如在第一篇文章中,如果直接靠像素来识别一张图片中的语义关系,可能比较困难,但是如果给了描述这张图片的文本,我们可以先分析文本的语义关系,在由此分析图片就会相对容易许多,而这就是图片和文本模态信息的融合。再比如,当我们人类看到一个物体但是不确定它是什么的时候,可以根据大脑中已有的先验知识来进行推理,例如我们在十字路口电线杆上看到一个白色方形物体,结合脑中的知识,一个白色方形物体,在大街中,放置于电线杆上,正对着路口,路口中有车,我们可以很容易的推理出这有很大可能是一个摄像头,而这就是图片与知识图谱模态信息的融合。

你可能感兴趣的:(论文阅读笔记,自然语言处理,图像处理,知识图谱)