《Adaptive Fusion Techniques for Multimodal Data》论文学习

Abstract
在本文当中,我们提出了一种自适应的融合技术,旨在从不同的模式有效地建模上下文,本文没有为网络定义一个确定性的融合操作,例如连接,而是让网络决定“如何”更有效地组合一组给定的多模态特征。我们提出了两种网络:1)自动融合,它学习压缩来自不同模式的信息,同时保留上下文;2)GAN融合,它从互补的模式中规则化给定上下文的学习潜在空间。对多模态机器翻译和情感识别任务的定量评估表明,与现有方法相比,我们轻量级的自适应网络可以更好地从其他模式建模上下文,其中许多方法采用了大规模的基于transformer的网络。
introduction
自然,更好的融合方法将有助于多模态系统更好地学习,最终提高其对给定任务的性能。
主要contributions
1.我们提出了两种轻量级的、自适应的数据融合技术:自动融合和gan融合。
2.我们提出了一个多任务框架,用于多模态网络的端到端训练(用于分类和生成)。
Proposed methods
我们的融合方法包括连接的单峰嵌入作为一个初始步骤。为了避免与以往的工作产生冲突,我们将只考虑拼接后的步骤作为我们融合方法的一部分,因为我们不使用拼接后的向量作为最终预测;这只是一个初步的步骤。因此,为了缓解现有融合方法的“静态”性,我们提出了两种自适应但简单的融合技术,即自动融合和gan融合。他们的目标是有效地结合多模态输入和减轻问题的浅层和计算开销显示了先前的融合技术。
3.1 Auto-Fusion
《Adaptive Fusion Techniques for Multimodal Data》论文学习_第1张图片

在这里插入图片描述

For Auto-Fusion, we consider the intermediatevector, ztm, as the fused multimodal representation.
3.2 GAN-Fusion
我们提出了一个对抗激励学习期望的有条件分配的培训制度。对于一项任务,如情绪识别,目标将是一个言论的情感。对于更有挑战性的生成任务,该模型可以学习更复杂的行为,比如根据不同句子的发音相似度和极性来将它们联系起来。我们的实验表明,与其他方法相比,基于gan的方法能够更好地学习这种多模态动力学。
《Adaptive Fusion Techniques for Multimodal Data》论文学习_第2张图片 GAN-Fusion module
《Adaptive Fusion Techniques for Multimodal Data》论文学习_第3张图片
《Adaptive Fusion Techniques for Multimodal Data》论文学习_第4张图片
在这里插入图片描述
生成任务(如视觉问题回答,多模态机器翻译)和分类任务(如语音情感识别,仇恨语音检测)。
ztr=zfuse
都是有监督的训练,为了更好地生成多模态的信息??更好地组合多模态的信息特征!!!

你可能感兴趣的:(java,机器学习,深度学习,人工智能,网络)