深度学习多模态融合_多模态深度学习综述.PDF

多模态深度学习综述.PDF

37 6 Vol. 37 No. 6

第 卷第 期 计算机应用研究

录用定稿 Application Research of Computers Accepted Paper

多模态深度学习综述

刘建伟,丁熙浩,罗雄麟

( 中国石油大学(北京) 自动化系, 北京 102249)

摘 要:模态是指事物发生或存在的方式,如文字、语言、声音、图形等。多模态学习是指学习多个模态中各个模

态的信息,并且实现各个模态的信息的交流和转换。多模态深度学习是指建立可以完成多模态学习任务的神经网络

模型。多模态学习的普遍性和深度学习的热度赋予了多模态深度学习鲜活的生命力和发展潜力。旨在多模态深度学

习的发展前期,总结当前的多模态深度学习,发现在不同的多模态组合和学习目标下,多模态深度学习实现过程中

的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模

态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成,以及多媒体检索等方面研究,将多

模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各问题进行子分类

和论述,同时列举了为解决各问题产生的神经网络模型。最后论述了实际多模态系统,多模态深度学习研究中常用

的数据集和评判标准,并展望了多模态深度学习的发展趋势。

关键词:多模态;深度学习;神经网络;模态表示;模态传译;模态融合;模态对齐

中图分类号:TP181 doi: 10.19734/j.issn.1001-3695.2018.12.0857

Survey of multimodal deep learning

Liu Jianwei, Ding Xihao, Luo Xionglin

(Dept . of Automation , China University of Petroleum, Beijing 102249, China)

Abstract: A modality refers to the way in which something happens or is experienced, such as word, language, sound,

picture and so on . Multimodality is a combination of two or more modalities. Multimodal learning refers to learning the

information of each modality in the multimodality, and realizing the exchange and conversion of information of each

modality. Thus, Multimodal deep learning is the establishment of a neural network model that can accomplish multimodal

learning tasks. The universality of multimodal learning and the intensification of deep learning lead t

你可能感兴趣的:(深度学习多模态融合)