多模态综述阅读总结

( 论文路径:https://arxiv.org/abs/1705.09406)

该综述主要分析了多模态所面临的挑战,从五个挑战展开总结不同的技术解决方案。

多模态任务挑战:表示、翻译、对齐、融合、协同学习。

(1)多模态表示:联合(joint)、协作(coordinated)

        多模态表示是使用来自多个此类实体的信息来表示数据。表示多种模式带来了许多困难:如何组合来自异构来源的数据;如何处理不同级别的噪声;以及如何处理缺失的数据。该综述提出了两类多模态表示方法:联合、协作。(其图解如下):

多模态综述阅读总结_第1张图片

        联合表示(又称单塔模型):通过将单模态用函数进行投射到同一多模态表示空间。公式:xm=f(x1,x2,......,xn)。主要用于:在训练和推理过程中都存在多模态数据的任务中。最简单的例子为单个模态的串联(又称早起融合)。

该论文分析了从神经网络、图形模型、递归神经网络等方面创建联合表示。

基于神经网络的联合表示:每个模态从几个单独的神经层开始,然后通过一个隐藏层,将模态投射到一个联合空间,然后将联合多模态表示通过多个隐藏层本身或直接进行预测。Ngiam等人[1]提出了使用堆叠去噪自动编码单独表示每一个模态,然后使用另一个自编码器层将其融合为多模态。Lapata等人[2]提出了多模态自动编码器来完成语义概念基础任务。(优点:具有优越的性能和以无监督的方式对表示进行预先训练的能力。缺点:无法处理缺失数据)。

基于图形模型的联合表示:最流行的方法是深度玻尔兹曼机(DBM),它将受限玻尔兹曼机(RBM)作为构建块。与神经网络类似,DBM的每一层都期望在更高的抽象级别上表示数据。多模态dbm能够通过合并两个或多个无向图来从多个模态中学习联合表示。(优点:允许用一种简单的方法来处理丢失的数据——即使缺少整个模态,该模型也有一种自然的处理方法。它还可以用于在另一种模态存在的情况下生成一种模态的样本。缺点:难以训练——计算成本高,以及需要使用近似变分训练方法。)。

基于递归神经网络的联合表示:循环神经网络(RNNs)及它的变体长短期记忆网络(LSTMs)。rnn主要用于表示单词、音频或图像的单峰序列,在语言领域最为成功。与传统的神经网络类似,RNN的隐藏状态可以看作是数据的表示,即RNN在时间步t的隐藏状态可以看作是到该时间步t的序列的总结。被用于表示情感识别[3].

        协作表示(又称双塔模型):分别对每个模态进行处理,添加相似性约束(即投影函数f(x1)~g(x2)一般为最小化余弦距离、最大化相关性、以及在结果空间之间强制执行部分阶),将其映射到一个协调的多模态空间,而进入多模态空间的投影对于每个模态都是独立的,但由此产生的空间在它们之间是协调的。

分析了相似性模型、结构化协调空间的协作表示。

相似性模型:最小化协调空间中模式间的距离。

结构化协调空间模型:最小化协调空间中模式之间的距离——将高维数据压缩为具有相似二进制编码的紧凑二进制编码。优化表示上相关性的无监督技术:规范相关分析(CCA)、核正则相关分析(KCCA)、深度规范相关分析(DCCA)。

(2)多模态翻译:

        多模态翻译指将一种模态转换(映射)为另一种模态,例:字幕生成、图像描述(即给出一个图像生成对该图的文本描述)。该综述提到两个方法:基于例子的模型(Example-based)、生成模型(Generative)。模型图解如下:

多模态综述阅读总结_第2张图片

        Example-based :基于例子翻译指从数据字典中进行匹配然后直接使用。基于例子翻译包含两种算法:基于检索和基于组合。

①基于检索:基于检索的模型可以说是多模态翻译的最简单形式。他们依赖于在字典中找到最接近的样本,并将其作为翻译结果。

②基于组合:基于组合的模型更进一步地采用了基于检索的方法。它们不只是从字典中检索示例,而是以一种有意义的方式将它们组合起来,以构建更好的翻译。

面临的问题:模型是整个字典——这使得模型很大,推理速度很慢(尽管,哈希等优化缓解了这个问题);期望与源示例相关的单一的翻译始终存在于全面和准确的字典中是不现实的——除非任务简单或字典非常大。这部分可以通过能够构建更复杂结构的组合模型来解决。然而,它们只能在一个方向上执行翻译,而基于语义空间检索的模型能够以两种方式执行它。

        Generative:生成模型是根据数据字典进行模型训练然后使用训练的模型进行多模态的翻译。本综述提到的三类生成模型:grammar-based(基于语法的模型)、encoder-decoder(编码器-解码器模型)、连续生成模型。

①grammar-based:基于语法的模型依赖于预定义的语法来生成特定的模式。它们首先要检测源模态中的高级概念,比如图像中的对象和视频中的动作。然后,将这些检测与基于预定义语法的生成过程结合在一起,从而产生目标模态。(优点:当它们使用预定义的模板和受限的语法时,它们更有可能生成语法上(在语言的情况下)或逻辑上正确的目标实例。)

②encoder-decoder:基于端到端训练的神经网络的编解码器模型是目前最流行的多模态翻译技术之一。该模型背后的主要思想是首先将源模态编码为向量表示,然后使用解码器模块生成目标模态,所有这些都在单次管道中。

③continuous generation models:连续生成模型旨在用于序列转换,并以在线的方式在每个时间步长产生输出。这些模型在从序列转换到序列时很有用,如文本到语音,语音到文本,视频到文本。已经为这种建模提出了许多不同的技术——图形模型、连续编码器-解码器方法和各种其他回归或分类技术。这些模型需要解决的额外困难是需要两种模式之间的时间一致性。

注:多模态翻译难以评估,目前的评价指标有:BLEU[4]、rouge[5]、Meteor[6]和CIDEr[7](视觉描述数据集任务上不可用,效果较差)。

(3)多模态对齐:

        多模态对齐:指寻找来自两个或多个模态的实例的子组件之间的关系和对应关系。例如,给定一个图像和一个标题,我们希望找到与标题中的单词或短语[98]相对应的图像区域。多模态对齐包含:显示对齐、隐式对齐。

        Explicit alignment:显式对齐的一个非常重要的部分是相似性度量度量。大多数方法依赖于测量不同模式中的子组件之间的相似性,作为一个基本的构建块。这些相似性可以手动定义,也可以从数据中学习到。本文设计两中类型算法来处理显式对齐:无监督、弱监督

①Unsupervised:无监督的多模态对齐处理模态对齐,而不需要任何直接对齐标签。为了使任务更容易,这些方法假设了对齐的某些约束,例如序列的时间排序或模态之间存在相似性度量。

        动态时间规整(DTW)是一种动态规划方法,已被广泛用于对齐多视图时间序列。DTW度量两个序列之间的相似性,并通过时间规整(插入帧)来找到它们之间的最佳匹配。它要求两个序列中的时间步长具有可比性,并需要它们之间的相似性度量。

        原始的DTW公式需要在模式之间预先定义的相似性度量,可以使用典型关联分析(CCA)将模态映射到一个协调空间。通过一种无监督的方式以对齐(通过DWT)和映射(通过CCA)实现不同模态流之间的联合学习。基于CCA的DTW模型能够在线性变换下的多模态数据对齐。

        Implicit alignment:与显式对齐相比,隐式对齐被用作另一个任务的中间(通常是潜在的)步骤。这使得在许多任务中具有更好的性能,包括语音识别、机器翻译、媒体描述和视觉问题回答。这些模型并不明确地对齐数据,也不依赖于监督对齐示例,而是学习在模型训练期间如何潜在地对齐数据。本文设计两中类型算法来处理隐式对齐:图形模型、基于神经网络的隐式对齐。

Graphical models--图形模型是一些早期的工作,用来更好地对齐语言之间的单词,为机器翻译和语音音素与其转录对齐。然而,它们需要手动构建模式之间的映射,构建这样的模型需要训练数据或人工专业知识来手动定义它们。

②Neural networks--是一个建模任务的一个例子,如果对齐作为一个潜在的中间步骤执行,通常可以得到改进。正如我们之前提到的,神经网络是解决这个翻译问题的流行方法,可以使用编码器-解码器模型或通过跨模态检索。

多模态对齐面临许多困难:1)很少有数据集具有明确标注的对齐;2)很难设计模态之间的相似性度量;3)可能存在多种可能的对齐,并不是一个模态中的所有元素在另一个模态中都有对应。

(4)多模态融合:

        多模态融合是多模态机器学习的原始主题之一,以往的调查强调了早期、晚期和混合融合方法。从技术术语上来说,多模态融合是整合来自多种模式的信息的概念,目的是预测一个结果测量:通过分类预测一个类别(例如,快乐与悲伤),或通过回归预测一个连续的值(例如,情绪的积极性)。

①Model-agnostic approaches:这种方法可以分为早期(即基于特征)、晚期(即基于决策)和混合融合。早期的融合在特征被提取后立即集成它们(通常是通过简单地连接它们的表示)。另一方面,晚期融合在每种模式都做出了决定后(如分类或回归)后进行整合。最后,混合融合结合了早期融合的输出和单个单模态预测器。

②Model-based approaches:包含三种多模态融合方法基于内核的方法、图形模型神经网络

        Multiple kernel learning (MKL) (基于内核的方法)--对内核支持向量机(SVM)的扩展,它允许对数据的不同模式/视图使用不同的内核。由于内核可以被看作是数据点之间的相似性函数,因此MKL中特定于模态的内核允许更好地融合异构数据。除了核选择的灵活性外,MKL的一个优点是损失函数是凸的,允许使用标准优化包和全局最优解决方案进行模型训练。此外,MKL可以同时用于进行回归和分类。MKL的主要缺点之一是在测试期间依赖于训练数据(支持向量),导致缓慢的推理和较大的内存占用。

        Graphical models(图形模型)--大多数图形模型可分为两大类:生成建模联合概率、判别建模条件概率。一些最早使用图形模型进行多模态融合的方法包括生成模型,如耦合和阶乘隐马尔可夫模型,以及动态贝叶斯网络。一种最新提出的多流HMM方法基于AVSR模态的动态加权。

        优点:图形化模型的好处是它们能够轻松地利用数据的空间和时间结构,这使得它们在时间建模任务中特别流行,如AVSR和多模态影响识别。它们还允许将人类的专家知识构建到模型中。

        Neural networks(神经网络)--神经网络虽然所使用的模式、架构和优化技术可能会有所不同,但在神经网络的联合隐藏层中融合信息的一般想法仍然是相同的。同时也通过使用rnn和lstm来融合时间多模态信息。

        优点:它们能够从大量的数据中学习。其次,最近的神经结构允许对多模态表示组件和融合组件进行端到端的训练。最后,与非神经网络的系统相比,它们表现出了良好的性能,并且能够学习到其他方法难以处理的复杂决策边界。

        缺点:主要缺点是缺乏可解释性。很难判断预测依赖于什么,以及哪些模态或特征发挥了重要作用。此外,神经网络需要大量的训练数据集才能获得成功。

        多模态融合面临的挑战:1)信号可能没有时间对齐(可能是密集的连续信号和稀疏的事件);2)很难建立利用补充信息,而不仅是互补信息的模型;3)每种模态可能在不同的时间点表现出不同类型和不同水平的噪声。

(5)协同学习:

        协同学习:通过利用来自另一个(资源丰富)模态的知识来帮助建模(资源贫乏)模态。当其中一种模式的资源有限——缺乏注释数据、噪声输入和不可靠的标签时,此时协同学习就派上用场了。我们称这种挑战为协同学习,因为辅助模态通常只在模型训练中使用,而在测试期间不使用。我们根据其训练资源确定了三种类型的协同学习方法:并行、非并行和混合。

多模态综述阅读总结_第3张图片

        ①Parallel(基于并行数据的协同学习) :并行模式来自同一数据集,实例之间有直接对应。在并行数据协同学习中,这两种模式共享一组实例——与相应的视频、图像及其句子描述相关的音频记录。这允许两种类型的算法利用这些数据来更好地建模模式:共同训练和迁移学习。

        ②Non-parallel(基于非并行数据的协同学习):非并行模式来自不同的数据集,没有重叠的实例,但在一般类别或概念上有重叠。依赖于非并行数据的方法不需要这些模式具有共享的实例,而只需要共享的类别或概念。非并行协同学习方法可以帮助学习表示,允许更好的语义概念理解,甚至执行看不见的对象识别。

        迁移学习也可以在非并行数据上进行学习,并允许通过将信息从使用数据丰富或干净的模态构建的表示传输到数据稀缺或有噪声的模态来学习更好的表示。这种类型的横向学习通常是通过使用协调的多模态表示来实现的。

        概念基础是指学习语义意义或概念,不是纯粹基于语言,也基于其他模式,如视觉,声音,甚至嗅觉。虽然大多数概念学习方法都是纯粹基于语言的,但人类意义的表征不仅仅是我们语言暴露的产物,也是基于我们的感觉运动经验和知觉系统。人类的语义知识严重依赖于知觉信息,许多概念都是基于知觉系统的,而不是单纯的符号。这意味着,纯粹从文本信息中学习语义意义可能不是最优的,并促使我们使用视觉或声学线索来建立我们的语言表征。

        零射击学习(ZSL)指的是在识别一个概念时,没有明确地看到任何它的例子,例如,在没有看到猫的(标记)图像的图像中对猫进行分类。ZSL主要有两种类型——单峰态和多模态。ZSL的多模态版本是非并行数据面临的问题,因为可见类的重叠是不同的。

        ③Hybrid(基于混合数据的协同学习):实例或概念由第三种模态或数据集桥接。在混合数据集中,两个非并行模态由一个共享模态或一个数据集桥接(参见上图)。

多模态协同学习允许一种模式影响另一种模式的训练,利用跨模式的互补信息。需要注意的是,共同学习是任务独立的,可以用来创建更好的融合、翻译和对齐模型。这一挑战在协同训练、多模态表示学习、概念基础和零射击学习(ZSL)等算法中得到了例证,并在视觉分类、动作识别、视听语音识别和语义相似度估计方面得到了许多应用。

[1]J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, and A. Y. Ng, “Multimodal Deep Learning,” ICML, 2011.

[2]“Learning Grounded Meaning Representations with Autoencoders,” in ACL, 2014.

[3]S. Chen and Q. Jin, “Multi-modal Dimensional Emotion Recognition Using Recurrent Neural Networks,” in Proceedings of the 5th International Workshop on Audio/Visual Emotion Challenge, 2015.

[4]K. Papineni, S. Roukos, T. Ward, and W.-j. Zhu, “BLEU: a Method for Automatic Evaluation of Machine Translation,” ACL, 2002

[5]C.-Y. Lin and E. Hovy, “Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics,” NAACL, 2003.

[6]M. Denkowski and A. Lavie, “Meteor Universal: Language Specifific Translation Evaluation for Any Target Language,” in EACL, 2014.

[7]R. Vedantam, C. L. Zitnick, and D. Parikh, “CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam,” in CVPR, 2015.

你可能感兴趣的:(深度学习,人工智能)