MMKG中的知识如何应用于各种下游任务
In-MMKG应用是指在MMKG范围内进行的任务,在这些任务中,已经学习了实体、概念和关系的嵌入。因此,在介绍in-MMKG应用程序之前,我们先简要介绍MMKG中知识的分布式表示学习,也称为MMKG嵌入:
distance-based model:同一个三元组的头部实体和尾部实体在投影空间中应是闭合的;
translation-based model,TransE and its variants conform this assumption: t 约等于 h+r。
在处理多模态数据时,还有2个额外问题:
1.如何有效地编码图像中包含的视觉知识和信息
2.如何融合不同模态的知识
解决
1.Vision Encoders:卷积神经网络的隐藏特征是MMKG表示中使用的主要图像嵌入
2.Knowledge Fusion:简单串联,多重模态嵌入的平均值,基于归一化或加权的SVD和PCA
目标是当h, r, t中的一个实体缺失时,完成一个完整的三元组(h, r, t)
MMKG上的链接预测可以通过一个简单的排序过程来处理,即从所有候选实体中找到最适合的实体来完成一个三元组。与传统KG任务相比,MMKG任务中附加在实体和关系上的图像可以提供额外的视觉信息,从而提高嵌入学习质量。例如,一个人的照片可以提供他的年龄、职业和身份的证据
IMAGEgraph的其他一些工作提出将看不见的图像和多关系图像检索之间的关系预测表示为可视化关系查询,这样这些查询就可以用于MMKG补全。与传统方法相比,IMAGEgraph在关系和头/尾实体预测任务上表现得更好,并且能够泛化到不可见的图像,以回答一些零镜头的视觉关系查询。例如,给定一个不属于KG的全新实体的图像,这种方法可以确定它与另一个我们不知道底层KG实体的给定图像的关系。
类似地,MMKG[24]构建了三个数据集来预测实体之间的多关系链接,所有实体都与数字和视觉数据关联,三种完全不同的知识使MMKG成为衡量多关系链路预测方法性能的重要基准,并验证了不同模式对同一链路预测任务是互补的假设。
三元组分类的目的是区分正确的三元组和错误的三元组
基于在MMKG上学习的嵌入模型,可以用能量分数E(h,r,t)计算每个三元组。为每个关系r设置不同的阈值δr,如果一个三元组的能量分数高于δr,则该三元组将被预测为负。为了为分类模型准备训练数据,通过替换h、r、t中的一个来损坏正确的三元组以生成负数据。
实体分类将实体分类为不同的语义类别,即MMKG中不同粒度的概念。实体分类也可以被视为一个特殊的链接预测任务,其中关系被设置为IsA,等待预测的三元组的尾部是MMKG中的一个概念。
针对传统的KG提出了各种实体分类模型,这些模型也可用于MMKG。但是,如果没有一个好的MMKG嵌入模型,MMKG中实体和概念的丰富多模态数据就无法充分利用。例如,一些研究[145]致力于从几种不同类型的模式中学习实体和概念的嵌入,然后将它们编码到联合表示空间。
实体对齐用于对齐在不同MMKG中引用相同真实身份的实体。
当两个MMKG之间存在重叠时,将它们整合为一个是可行的方法。
核心思想:学习不同KG中实体的表示,然后评估两个KG之间每个实体对之间的相似性,对于MMKG中,由于引入了多模态特征,提出一些面向实体对齐的MMKG嵌入模型,分别对不同模式的特征向量进行编码,然后通过知识融合技术将其合并为一个实体。
一项工作[146]使用排名损失作为损失函数,而另一项工作[147]设计了损失函数L=α| | e− es | |+β| | e− en | |+γ|e− ei | |增强多种模态的互补性,其中es、en、ei是三种不同模态的嵌入,e是实体的最终嵌入,α、β、γ是每种模态的比率超参数
另一项工作[24]阐述了一个专家产品(PoE)模型,用于回答(h?、sameAs、t)或(h、sameAs、t?)等问题,其中h和t来自不同的KG。通过合并[148]并将其扩展到视觉特征,端到端学习框架在实体对齐方面优于串联和集成方法。
KG外应用是指下游应用,这些应用不限于MMKG范围内,但可由MMKG协助。
以实例介绍多模式命名实体识别,实体链接,可视化回答,图像文本匹配,多模式生成,多模式推荐系统等。主要介绍MMKG的使用方法
Recent,工作考虑用NER来从附在图像上的文本中检测实体,定义为MNER,其中图像可以为实体识别提供必要的补充信息。
MMKG在其中的作用:MMKG通过提供视觉特征来描述不同类型的实体,从而在MNER模型中发挥重要作用,使MNER模型能够更好地把利用随文本所附图像的视觉特征进行实体识别。eg[149]提出利用MMKG中图像的背景知识来帮助捕获图像的深层特征,避免浅层特征造成的失误。
(给定一个带有图像的文本),多模态实体链接使用文本和视觉信息将文本中的模糊提及映射到知识库(KG)中的一个实体。
MEL通过两种方式利用MMKG中的图像知识
使用带有图像的视觉信息有助于捕捉提及与实体之间的关系,但与图像无关的部分也可能成为噪声,对提及和实体的表征学习都会带来负面影响。为了消除副作用,提出了一种两级图像和文本相关机制,根据预先设定的阈值过滤掉不相关的图像,多注意机制还可以通过查询提及候选实体周围的多跳实体来捕获提及表示和实体表示中的重要信息[118]
最近的大多数VQA基准数据中,如GQA[119],OK-VQA[56],KVQA[121],许多问题需要给外部知识进行视觉推理。
新提出的VQA任务弥合了人类可以轻松将各种形式的知识组合起来回答视觉查询的差异,
如:Q:哪位美国总统与这里看到的毛绒玩具有关?
A:如果图像中的毛绒玩具是“泰迪熊”,通过KG推断出答案“西奥多·罗斯福”
只有对各种模式进行更多的了解,才能对image-question-answer进行推理
MMKG有助于处理问题,并提高答案的可解释性
首先,MMKG提供了关于命名实体及其在图像中的关系的知识,这将有更深入的视觉内容理解;
其次,MMKG中结构化的符号知识使其能够更明确地进行推理。
(不懂在说啥)最近的一些研究[152]将不同的KG与VQA的不同知识相结合,包括单KG,如DBpedia[6]、ConceptNet[2]和hasPart KB[153],用于分类和常识知识,以及MMKG视觉基因组[59]用于视觉数据。MMKG中的视觉符号信息与图形结构信息一起传递视觉概念之间的关系,为图形网络上的问题的推理提供了有力的证据。此外,MMKG中保存的显式语义知识有助于使答案更具解释性和通用性[154]。在MMKG中保存和统一的不同模态的表示大大有利于跨模态的关系推理。
图像文本匹配是许多文本和图像相关应用(如图像文本和文本图像检索)中的一项基本任务,其目的是输出输入图像和文本对之间的语义相似性分数。
图像文本匹配通常是通过将文本和图像映射到一个联合语义空间,然后学习统一的多模态表示进行相似度计算来实现的。一般的方法是利用多标签检测模块提取语义概念,然后将这些概念与图像的全局上下文融合[114]、[159]、[160]。然而,基于检测的预训练模型很难找到长尾概念,这会将模型限制在这些检测到的概念上,并导致性能不佳。
为了克服检索任务训练数据中的偏差,可以利用MMKG扩展更多的视觉和语义概念,利用多模态实体之间的关系。此外,MMKG还可以帮助构建场景图,引入视觉概念之间的信息关联知识,进一步增强图像表示。例如,可以提取MMKG的多模态三元组中经常同时出现的概念对,例如房屋窗户和树叶,以增强图像中概念的表示,从而为图像的语义理解提供强大的上下文信号,并提高图像文本匹配的性能[16]。此外,考虑到图像-文本匹配任务中的一个关键步骤是在不同模式下对齐局部和全局表示,一些研究建议在MMKG中合并关系,以更高级别的语义表示图像和文本[161]。这种图结构信息更好地增强了多模态数据的推理和推理能力,具有更高的可解释性。MMKG还通过学习更统一的多模态表示来帮助跨模态对齐。
图像标记,图像字幕,视觉故事讲述等,可以从MMKG中受益
传统方法会受到标记统计偏差以及噪声和不精确标记的限制->将MMKG中的概念知识嵌入到图像中,可以极大地改进图像的表示,提高图像标记性能。
另一项工作[162]建议构建一个名为Visio文本知识库(VTKB)的MMKG,其中包括文本和视觉信息以及它们之间的关系。在此基础上,提出了一种新的图像标记框架,将视觉信息融入到VTKB中,以帮助消除概念歧义,并更好地将其与图像联系起来。
目前主流的基于统计的图像字幕模型存在2个缺点
首先,它们严重依赖于目标探测器的性能。编码器框架具有单独的检测和字幕过程,总是导致预定义对象/关系和目标文本描述之间的语义不一致。
其次,看不见的物体总是给他们带来巨大的挑战。在图像字幕平行语料库上训练的模型往往无法描述看不见的对象和概念。
但MMKG可以从2个方面帮助缓解图像字幕的2个障碍
1) 一些研究[163]建议利用MMKG进行关系推理,从而产生更准确、更合理的标题。更具体地说,可以为嵌入候选图像建议的视觉和知识向量构建语义图,然后对语义图进行编码以生成文本描述。通过这种方式,可以充分利用MMKGs中总结的语义约束,这可能进一步赋予MMKGs能力,并易于扩展为更高级的推理。
2) MMKG中的符号知识可能有助于理解看不见的物体[55]。具体来说,符号知识提供了关于看不见的对象的符号信息,并根据符号知识建立了看不见的对象和看不见的对象之间的语义关系。在包含新对象的知识引导图像字幕任务中,关键模块是一个多标签图像分类器,用于将描述的视觉对象与知识库实体相关联,揭示了在MMKGs的帮助下,在真实世界对象与其多模态信息之间建立连接的方法[55]。通过引入基于MMKG的多标签分类器的外部知识,扩展了图像表示。
一个更复杂的任务名为实体感知图像字幕,它要求根据相关文章中的背景知识对命名实体进行更详细的描述。虽然一些研究提取和编码文本知识以构建更细粒度的注意机制,但它们忽略了命名实体和图像中视觉线索之间的关联,因此在一些复杂场景下表现不佳。然而,MMKG可以捕捉上下文中实体和图像中对象之间的细粒度关系,以便生成具有更准确命名实体和更相关事件的标题[18]。
更具体地说,两种不同的MMKG用于不同模块的各种功能。首先,在跨模态实体链接模块中,通过分别连接从输入文章和图像中提取的文本子图和图像子图,同时结合外部MMKG作为辅助,构建完整的MMKG。建立良好的MMKG以及图像和文章极大地有利于随后的实体感知字幕生成过程。
视觉故事讲述是一项比图像字幕更具挑战性的任务,图像字幕旨在根据一系列连续的图像讲述故事。此任务需要发现图像和与图像关联的对象之间的关系。传统的视觉故事讲述方法通常将任务视为序列图像字幕问题,忽略图像之间的关系,从而产生单调的故事。此外,这些方法仅限于单个训练数据集中的词汇和知识。为了解决这些问题,最近的一些努力[164]在蒸馏-浓缩-生成三阶段框架内求助于MMKG。首先从每幅图像中提取一组单词后,将两幅连续图像中的所有词汇配对,以查询Visual Genome中的对象关系和OpenIE中的词汇关系,以及所有可能的元组,并生成额外的故事句子。然后选择最合理的术语集,并将其输入下一个故事生成步骤。通过这种模仿人类如何生成故事的方式,知识16图中关系的使用在图像之间提供了强大的逻辑推理,使生成的故事更加流畅。
推荐系统旨在通过对历史数据的分析,推荐用户可能喜欢/购买的物品。在这个过程中,需要平衡各种因素,如准确性、新颖性、分散性和稳定性[165]。当推荐场景中存在图像和文本等多模态数据时,我们称之为多模态推荐系统,在该系统中,应联合利用不同模态的信息
近年来已经证明,MMKGs可以极大地增强多模式推荐系统[166]。一些方法通过利用外部MMKG获得具有丰富语义的项表示。将MMKG的信息整合到不同的模式中,有助于解决基于协同过滤(CF)的推荐策略中长期存在的冷启动问题[167]。其他一些方法可以找到其他方法来利用MMKG获得更个性化、更可解释的建议。例如,[168]充分利用了MMKG的图形结构,设计了一种基于MMKG的层次注意路径的新方法,用于在不同模式下对包含信息的项目进行推理。通过MMKG中路径中的实体和图像,可以学习丰富的路径语义,从而产生具有更高知识水平的可解释、明确的推荐。不同的是,最近的一些研究[131],[168]novelly提出以各种方式从项目的图像和文本构建个性化的MMKG,然后考虑MMKG中的关系,可以更好地建模项目之间的实体关系推理。
MMKG建设和应用中有待进一步研究的一些问题
除了实体、概念和关系的基础之外,一些下游应用还需要复杂符号知识的基础,这些知识由多个相互之间具有密切语义关系的关系事实组成。这些多个关系事实可能是KG中的路径或子图。例如,对于KG中包含特朗普的妻子、女儿、孙子等的子图,正确的底图可能是特朗普的家庭照片。这激发了多重关系基础,其目的是找到图像来表达KG中路径或子图中包含的知识。
多重关系基础具有挑战性,因为它涉及多个关系的基础,而这些多重基础通常以复杂的方式相互交错。我们必须找到充分体现复合语义关系的图像。在许多情况下,复合语义只是隐式表达的,可能会随着时间的推移而改变。
通常,我们依靠数据驱动的方法来构建大规模MMKG。自动从大数据中获取的MMKG不可避免地会遇到质量问题,即MMKG可能包含错误、缺失事实或过时事实。例如,在基于搜索行为数据的多模态知识获取中,很容易将错误的图像与长尾实体相关联,因为此类实体可能在Web上没有图像,因此任何单击的图像都会导致错误的接地。
除了传统KG中广泛讨论和研究的准确性、完整性、一致性和新鲜度等常见质量问题外,MMKG还有一些与图像相关的特殊质量问题。首先,当一个实体和另一个实体密切相关时,这两个实体的图像可能很容易混淆。见表6中的第一个例子,埃及雨蛙是一种与鳄鱼共生的鸟类,因此我们在寻找它时可能总是能同时看到鳄鱼和鸟类的照片。其次,更著名实体的形象很容易出现在与其密切相关实体的实体基础结果中。见表6中的第二个例子,《漫游的地球》是由中国著名科幻作家刘慈欣写的。在寻找这本书的时候,我们总能看到另一本更著名的书《他的黑暗森林》的照片。第三,一些抽象概念的视觉特征不够清晰。例如,抽象名词傲慢的视觉特征是不固定的,所以我们总能得到一些完全无关的图片。为了解决上述问题,可能需要更多的视觉分析和背景信息来指导点击率和文本信息,以避免这种误导。
在建造大型KG时,效率始终是一个不可忽视的问题。构建MMKG的效率问题更为突出,因为需要考虑处理多媒体数据的额外复杂性。例如,NEIL[19]需要大约350K CPU小时来收集2273个对象的400K可视实例,而在典型的KG中,我们需要研磨数十亿个实例。构建MMKG的现有解决方案的可扩展性将受到极大挑战。如果基础目标是视频数据,那么可伸缩性问题甚至可能会被放大。
除了MMKG的构建,MMKG的在线应用还需要仔细解决效率问题,因为MMKG需要实时服务于应用。解决方案的效率对于构建基于MMKG的在线应用程序至关重要。
我们是第一个全面调查由文本和图像构建的MMKG的现有工作的人。我们系统地回顾了MMKG施工和应用方面的现有工作。我们比较了主流MMKG的内容和构造方式。我们分析了MMKG结构和应用中不同解决方案的优缺点。我们不仅指出了MMKG建设和应用中现有任务的一些潜在机会,还列出了MMKG建设和应用的一些有希望的未来方向。