多模态知识图谱构建与应用知网文献总结

1、多模态教学知识图谱的构建与应用:
论文中以《数据结构(c++)》为例,以教学教材、教学大纲、网络资源等为依据,对知识点进行分类汇总,从中抽取预先定义好的一些属性的值。
教材、大纲以及网络资源(信息来源)——知识点总结——知识点(独立,需要通过关联关系进行关系挖掘,通过知识点之间的关系建立联系——根据与定义好的属性,进行属性值以及多模态资源的抽取。
建模:
(1)文字描述型资源:教学大纲、教材等书本资料以及网络资源中获取。
(2)代码类资源:教材、习题册等网络资源中获取。
(3)多模态资源:图片、视频、语音等知识点相关资源(网络、多媒体平台、教师微课制作,小型教学实例视频)
(4)考题类资源:课堂练习题、之前的考试题。
关联关系挖掘:前序课程、后序课程、相似、易混、难易程度。
多模态知识图谱构建与应用知网文献总结_第1张图片
2、多模态领域知识图谱的构建方法与应用研究:
论文中采用半结构化数据的抽取为构建基础,具体构建技术包括多模态知识抽取,多模态知识融合、知识表示以及知识验证。通过不同信息抽取技术,实现将来源非常广泛的多模异构数据进行实体、属性值对及其关系的抽取。经过多模态数据融合,缩小从不同模态的数据中抽取出信息的歧义性,减少数据冗余,确保事实的准确性。
多模态知识抽取:给定多源异构数据,利用人工或机器学习、深度学习等自动化方式抽取出目标知识,计算机技术的研究。
从早期的文本知识抽取发展为如今抽取实体、音频、视频等具有模态多样性的数据。根据目前的研究现状,知识抽取的方法可以分为实体抽取、关系抽取和属性抽取。
实体抽取是指利用算法等手段将数据中的实体进行识别并从数据中抽取得到所需的实体。
Sun等首次使用了文本数据和视图数据进行了实体抽取,图片数据的处理过程中,利用已有的图像以及对应的文本数据组成数据对,其中最重要的是对文本数据进行预处理。由于视觉世界具有多样性以及自然语言的复杂性,预处理数据量庞大,利用数据将无法辨识的冗余数据进行筛除,最终对数据进行分类整理并且将数据的语义相似度和视觉相似度进行评比和判别。
Fang的模型中,能够利用已分类的图像数据构建实体,通过将文本数据与视觉数据进行聚类。利用最终得到的解决确立视图概念。上述方法中主要涉及到的所需要的概念是:概念搜索、关系提取以及分级建立。概念搜索:根据百科网站中识别并且选出所需要的概念集合。针对所得到的结果,利用涉及到的标签图片进行学习从而得到训练模型,该方法利用对陌生图片的辨认不断更新实体。概念关系抽取过程中,首先将无法提取到的关系利用图像相似度进行抽取,进而能够计算所求的类别关系。最后在分级过程中,提出了概念熵,将所得的概念熵用于分析概念的语义阔度上。上述模型可以对高冗余的噪声标签进行过滤和处理。最终综合文本数据和图像数据进行处理,能够更新图片和文本概念。
Zhu在之前的基础之上通过构建多模态知识库结构,把图像数据和其对应的文本数据统一处理,将图像的特征和图像所对应的文本数据视作实体,因此能够将该知识库用在视觉知识问答领域,知识库构建完成后,能够应对面对不同方向的多类别知识问答,省去了针对特定领域知识问答而训练特殊的模型。
多模态属性抽取的主流方法往往把属性视为一类概念,从而能够利用与实体抽取中类似的方法进行处理。
lu通过提取陌生的实体、关系、属性中的特征,再将其运用到不同的数据处理模型中进行操作。
Ferrada提出的IMGpedia从Wikimedia Commous数据集中的图像中搜集大量的可视化信息,构建并生成了1500万个视觉内容描述符,图像之间有4.5亿个视觉相似关系。
liu将三个包含丰富数字文字和图像信息的知识图谱通过SameAs谓词将知识图谱中的实体连接在一起,并且在不同的资源之间实现了关系推理。
Wang提出了多模态知识图谱Richpedia,利用基于规则的关系抽取模板,借助Wikipedia图像描述中的超链接信息,生成了图像实体之间的多模态语义关系。
多模态知识融合
将来源、结构、表示方式不同的多源异构数据以相同的形式和组织结构映射到相同的框架中,并且通过合并和消除的方式处理知识苦衷重复、歧义及错误概念,形成高质量数据库。多模态数据融合通过整合多模态的数据特征以得到一致、公共的模型输出。
多模态融合能够利用多模态数据中的互补信息,从而发现知识对多模态的依赖关系。现有的多模态数据融合方法可以分为基于阶段的融合算法、基于特征的融合算法以及基于语义的融合算法
基于阶段的融合算法主要策略是根据不同的数据融合阶段使用不同的数据完成数据融合,不需要将多模态数据映射到统一向量。
基于特征的融合算法最早指将从不同数据集中提取的特征顺序连接成一个特征向量,然后基于串联后的特征完成聚类、分类、预测任务。同时,针对这一领域也提出了一系列的改建算法,将多模态数据进行一致的特征表示,文献中Ngiam提出了基于深度网络中的多模态特征融合的基础模型,表明跨模态特征学习能够利用耦合模态深度自编码机完成。Srivastava为了融合图片数据和文本数据提出了多模态深度玻尔兹曼机模型。
多模态数据的表示方法和组织形式不同,因此使用深度网络的多模态数据融合不能很好的照顾到多模态数据的语义关系,因此提出了基于语义的多模态融合算法。基于语义的多模态算法需要理解不同模态中数据的语义和不同模态之间的语义关系,在融合过程中精准抽取不同模态数据的语义。目前基于语义的多模态融合算法主要有协同训练、多核学习、子空间学习、概率依赖和迁移学习方法。其中子空间学习方法基于数据多模态描述的语义共享,能将多个高维特征集投影到同一低维语义相关空间缓解维度灾难问题,要解决不同模态数据之间的相关性,需要构造一个公共的特征子空间,将不同模态的数据特征向量映射到该空间中,然后再该空间中对不同模态的数据进行相似度度量。基于语义融合的早期,多模态共享子空间学习算法利用典型分析使得不同模态数据之间的相互关联性达到了最大化,在相关分析算法研究中针对数据非线性、非正交的问题,之后研究者通过深度学习的方法计算最大相关子空间,最终能够得到所有的模态数据的投影矩阵,提出了混合概率分析法、深度典型相关性分析法方法,
liang提出的方法设定跨模态时群组不变,同时学习子空间投影和多模态间的关系。
Mahadevan在学习低维嵌入过程中,不改变模态数据内的局部结构,极大的提高了低维嵌入过程中的稳定性。常用的子空间映射还有双线性模型、偏最小二乘法。同时还有一些方法将所有模态知识映射到公共语义空间后,通过计算公共空间中不同模态知识之间的语义相似度,可以对齐不同模态之间的实体,以便于表示。
zhu等人提出了联合知识嵌入的方法来实现实体对齐,并且给予迭代训练的方法改进了对齐性能,这个方法根据异构知识图谱的内部结构信息(实体和关系),首先使用PTransE(基于路径的TransE)分别学习不同知识图谱的分布式表示,把不同结构的知识图谱中的实体和关系映射到低维语义空间中,之后根据向量距离进行实体对齐。
lin等表明在实体对齐过程中引入关系路径能够极大提高知识图谱的构建质量。
JAPE利用联合表示学习技术将不同知识图中的实体和关系映射到统一的向量空间中,将实体和关系的映射转换成了向量距离计算的问题。
EnAli是一种用于匹配两个或者多个异构数据源中实体的无监督方法。
li等人构建了一个统一的融合框架,通过融合多个来源的情感知识来训练针对目标领域的特定领域的情感分类器。
在知识融合过程中,往往会产生一类现象,即出现两个或者两个以上的词语指向唯一一致的实体,为了解决此现象,研究者们提出了共指消解。知识融合过程中的另一类现象是出现一个词语同时可以代表两个或两个以上不同的实体,解决该问题的关键技术是利用聚类思想的实体消歧。其重点是计算实体和指标的相似度,
实体与指标的相似度计算主流方法分为:空间向量模型,语义模型,社会网络模型以及百科知识模型。最近几年,实体消歧的相关理论和应用研究的进展都比较迅速。
Xu等人设计了基于长短期循环神经网终算法,并通过实验证明在实体消歧中,利用循环神经网络编码的效率更高。
Xie等基于实例相似性的聚类算法,提出了概念、属性和实体融合的三类模式;
Gentile等综合考虑了实体关联和语义网络进行实体消歧,通过基于维基百科网站数据进行的实验证明了该方法有较高的准确性。

你可能感兴趣的:(知识图谱,人工智能,计算机视觉)