论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊


f3713bcf01e9fb740fa4828b131c74ba.gif

文章题目:Visual Entity Linking via Multi-modal Learning

作者:郑秋硕,闻浩,王萌,漆桂林

引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data Intellignece 4(1)(2022).

doi: 10.1162/dint_a_00114

    现有的视觉场景理解方法主要关注识别视觉对象及检测视觉关系,其侧重于粗粒度概念发现,而忽略了细粒度场景理解。事实上,网络上的许多数据驱动应用场景(例如新闻阅读和电子购物)需要准确地将概念提及识别为实体,并正确地链接到知识图谱。有鉴于此,本文确定了一项新的研究任务:用于细粒度场景理解的可视化实体链接。为了完成这项任务,我们首先从不同的模态中提取候选实体的特征,即视觉特征、文本特征和知识图谱特征。然后,我们设计了一种基于深度模态注意力的神经网络,利用排序学习方法,将所有特征集合起来,并将视觉提及映射到知识图谱中的实体。

论文浅尝 | 基于多模态特征的视觉实体链接_第1张图片

图1.视觉场景理解与视觉实体链接

考虑以下两个场景:案例一:一个在线用户正在阅读关于篮球的体育新闻,并且想要在照片中区分姚明和特雷西·麦克格雷迪,如图[示例]所示。然而,即使是世界先进的目标检测系统也不能保证给出正确的答案。案例二:另一个用户倾向于对Tracy Mcgrady的鞋感兴趣,并想知道具体的签名运动鞋,但现有的图像搜索引擎如Bing.com只能识别白色的鞋子。为了完成用户提出的上述任务,我们需要更多详细的辅助信息来补充视觉学习。补充信息可以从综合多模态知识图谱中获得,如Richpedia和IMGpedia。如果知识图谱中的实体成功链接到图像中的对象,我们可以在案例一中使用正确的名称(即Tracy Mcgrady)回答问题,并在案例二中使用特定的鞋品牌(即阿迪达斯T-MAC4)精确地向用户推荐。

    解决办法见图2:

论文浅尝 | 基于多模态特征的视觉实体链接_第2张图片

图2.视觉实体链接概述,它由两部分独立组成,即特征提取模块和视觉实体链接模块。特征提取模块从三种模式中提取特征。

在本文中,我们提出了一个新的框架来实现视觉场景理解中的视觉实体链接。具体地说,我们首先为图像生成一个粗粒度的场景图,并利用VGG-16网络提取对象的视觉特征。然后,我们使用GRU语言方法从图像标题中提取对象的文本特征,并通过命名提及匹配发现候选KG实体。在提取候选实体的KG特征后,我们提出了一种基于深度模态注意神经网络的学习排序方法来聚合所有特征并将视觉对象映射到KG中的实体。实验结果见表1:

论文浅尝 | 基于多模态特征的视觉实体链接_第3张图片

表1.主要实验结果

    表1显示了VELD数据集上排名前1、3、5和10的候选实体列表检索精度结果。前两个实验使用视觉模态和知识图模态信息。通过实验结果证明,现有的基于静态离线训练的深度神经网络不能很好地完成视觉实体连接任务。由于训练数据集的局限性,很难建立一个包含开放域中所有实体的图像资源的数据集,因此从另一个角度证明了该模型的有效性。

    第三到第五个实验是基于文本模态和知识图模态的特征进行视觉实体链接,通过一系列后处理,目标帧的链接不受视觉特征的影响。从实验结果来看,语篇情态和我们的完整模型之间仍然存在很大的差距。

    与简单的视觉对象识别方法和使用文本和KG作为支持的文本实体链接方法相比,我们发现我们提出的方法明显优于这些基线。这是因为我们在不同的模态中联合融合了三种特征,而不是简单的基于模态的链接。另一个令人信服的观点是,通过在VELD数据集上应用类似的多模式学习模型DZMNED,结果表明,在Top-1精度度量上,它们仅达到66.46%。我们的模型达到83.16%,这表明我们的模型在视觉实体链接任务中具有很大的优势。

论文浅尝 | 基于多模态特征的视觉实体链接_第4张图片

郑秋硕,东南大学网络空间安全学院研究生,获得了东南大学计算机学士学位。他的主要研究兴趣是多模态学习和知识图谱的下游应用。

论文浅尝 | 基于多模态特征的视觉实体链接_第5张图片

闻浩,东南大学计算机科学与工程学院本科生。他的研究兴趣主要包括信息检索、实体链接和多媒体研究。

论文浅尝 | 基于多模态特征的视觉实体链接_第6张图片

王萌,东南大学计算机科学与工程学院助理教授,知识图谱与人工智能研究小组负责人,东南大学至善青年学者。2018年获西安交大计算机科学与技术系博士学位。2016年澳大利亚昆士兰大学访问学者,与Xue Li教授和萧芳舟教授在昆士兰大学的DKE实验室合作研究。他的研究领域是知识图谱、语义搜索、NLP和跨模态数据。

论文浅尝 | 基于多模态特征的视觉实体链接_第7张图片

漆桂林,东南大学计算机与软件工程学院教授、东南大学认知智能研究所所长、南京柯基数据科技有限公司首席科学家、OpenKG发起人之一、中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任和江苏省人工智能学会知识工程与智能服务专委会副主任、国际期刊 Data Intelligence 主编、国际期刊 Journal of Web Semantics 的副主编和 Semantic Web Journal 的编委、Journal of Big Data Research的编委、世界三大出版集团之一的爱思唯尔(Elsevier)的数据管理顾问委员会顾问、情报工程期刊编委。获得“江苏省六大人才高峰”资助和“创业南京高层次人才”资助。所取得的科研成果在工业界中得到实际应用,产生了实际效益,在司法类案推送、电商数据分析、电力故障智能检测和知识推送、医药知识问答、军事决策系统和安全决策系统中落地,产业化前景广阔。

Data Intelligence 期刊介绍

Data Intelligence 是中国科学院文献情报中心主办的英文学术期刊。创刊于2019年,目前被EI、ESCI、Scopus、DOAJ、Inspec数据库收录。期刊以知识表示、处理与应用(本体、元数据及其标准、语义标注体系、知识图谱等)及结构化、语义化的数据论文、语义数据驱动的智能算法、系统、平台为刊发主体,致力于推动数据融合、数据与数据处理平台的有效共享、倡导数据追本溯源,促进知识实时构建,并为下一代精准智能语义数据分析和应用以及深度知识服务提供创新源泉。期刊官网:https://direct.mit.edu/dint 。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

论文浅尝 | 基于多模态特征的视觉实体链接_第8张图片

点击阅读原文,进入 OpenKG 网站。

你可能感兴趣的:(大数据,编程语言,python,计算机视觉,机器学习)