由于数据的异构性,多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。从多模态信息源中学习提供了捕获模态之间的对应关系并获得对自然现象深入理解的可能性。
各应用涉及到的挑战
本文对**多模态机器学习的五个核心技术挑战(及其相关子挑战)**进行了识别和探讨。它们是多模态学习的中心,需要处理才能促进该领域发展。我们的综述超越了典型的早期和晚期融合分割,包括以下五个挑战:
通过各模态的信息找到某种对多模态信息的统一表示。来自同一个体的不同模态信息的表征(向量)间应具备更高的相似程度。
表示多种形式存在许多困难:如何组合来自不同来源的数据;如何处理不同级别的噪声;以及如何处理丢失的数据。以有意义的方式表示数据的能力对于多模式问题至关重要,并且是任何模型的主干。
良好的表示对于机器学习模型的性能非常重要,这一点在语音识别和视觉对象分类系统的性能最近的飞跃中得到了证明。Bengio等人的[18]识别了许多良好表示的属性:平滑性、时间和空间相干性、稀疏性和自然聚类等
。Srivastava和Salakhutdinov[198]确定了多模态表示的其他理想属性:表示空间中的相似性应该反映出相应概念的相似性
,即使在没有一些模态的情况下也应该很容易得到表示,最后,在给定观察到的模态的情况下,应该有可能补全缺失的模态。
本文提出了两种多模态表示:联合表示和协调表示
联合表示法主要(但不是唯一)用于在训练和推理步骤中同时存在多模态数据的任务。联合表示的最简单示例是**单个模态特征的串联(**也称为早期融合[50])。在本节中,我们讨论了创建联合表示的更先进的方法,首先是神经网络,然后是图形模型和循环神经网络。
一般来说,神经网络由连续的内积构建块和非线性激活函数组成。为了使用神经网络作为一种表示数据的方式,首先训练它来执行一个特定的任务(例如,识别图像中的对象)。由于深度神经网络的多层性质,每一层都假设以更抽象的方式[19]表示数据,因此通常使用最后或倒数第二个神经层作为数据表示形式。要使用神经网络构建多模态表示,每个模态从几个单独的神经层开始,然后是一个隐藏层,将模态投射到一个联合空间。然后,联合多模态表示将通过多个隐藏层本身或直接用于预测。这些模型可以经过端到端学习训练,以表示数据和执行特定的任务。这导致了在使用神经网络时,多模态表示学习和多模态融合之间的密切关系。
由于神经网络需要大量带标签的训练数据,因此通常使用自动编码器对无监督数据进行预训练[80]。Ngiam等人提出的模型[151]将使用自动编码器的思想扩展到多模域。他们使用堆叠式去噪自动编码器分别表示每个模态,然后使用另一个自动编码器层将它们融合成多模态表示。同样,Silberer和Lapata[184]提议使用多模自动编码器来完成语义概念基础的任务(见第7.2节)。除了使用重构损失训练表示,它们还将一个术语引入到使用表示来预测对象标签的损失函数中。由于使用AutoEncoder构造的表示是通用的,不一定是针对特定任务优化的,因此通常对手头特定任务的结果表示进行微调[217]。
基于神经网络的联合表示的优势是其通常具有优越的性能,并且能够在无监督的情况下对表示进行预训练。然而,性能的提高取决于可用于训练的数据量。缺点之一是模型不能自然地处理丢失的数据——尽管有一些方法可以缓解这个问题[151],[217]。最后,深度网络往往很难训练[69],但该领域在更好的训练技术方面正在取得进展[196]。
一种通过使用潜在随机变量来构造表示的常用方法,如何使用概率图模型来表示单模和多模数据呢?基于图形模型的表示最流行的方法是深度玻尔兹曼机:deep Boltzmann machines (DBM)[176],将restricted Boltzmann machines (RBM)[81]堆叠起来作为构建块。与神经网络类似,DBM的每个连续层都期望在更高的抽象级别上表示数据。DBMs的吸引力来自于他们不需要监督数据进行训练的事实[176]。由于它们是图形模型,因此数据的表示是概率的,但是可以将它们转换为确定性神经网络——但这就失去了模型的生成方面[176]。
Srivastava和Salakhutdinov[197]的工作引入了多模态深度信念网络作为多模态表征。Kim等[104]对每一种模态都使用了一个深度信念网络,然后将其组合成联合表征进行视听情感识别。Huang and KingsburyAVSR[86]采用了类似的模型,Wu等[225]基于音频和骨骼关节的手势识别。
Srivastava和Salakhutdinov[198]将多模态深度信念网络扩展到了多模态DBMs中。多模态DBMs能够从多种模态中学习联合表示,方法是使用隐藏单元的二进制层合并两个或多个无向图。由于模型的无向性,它们允许每个模态的低级表示在联合训练后相互影响。Ouyang等[156]探讨了多模态DBMs在多视图数据人体姿态估计中的应用。他们证明,在单模态数据经过非线性转换后的后期对数据进行集成对模型是有益的。同样,Suk等[199]利用多模态DBM表示法从正电子发射断层扫描和磁共振成像数据中对阿尔茨海默病进行分类。使用多模态DBMs学习多模态表示的最大优点之一是其生成特性,这允许以一种简单的方式处理丢失的数据——即使整个模态丢失,模型也有一种自然的处理方法。它还可以用于在另一种模态存在的情况下生成一种模态的样本,或者从表示中生成两种模态的样本。与自动编码器类似,可以以非监督的方式对表示进行训练,从而支持使用未标记的数据。DBMs的主要缺点是训练困难,计算成本高,需要使用近似变分训练方法[198]。
到目前为止,我们已经讨论了可以表示固定长度数据的模型,但是,我们通常需要表示不同长度的序列,例如句子、视频或音频流。在本节中,我们将描述可用于表示此类序列的模型。循环神经网络(RNNs)及其变体,如长-短时记忆(LSTMs)网络[82],由于在不同任务的[12]序列建模方面的成功,近年来受到了广泛的欢迎[213]。到目前为止,RNNs主要用于表示单模态的单词、音频或图像序列,在语言领域取得了很大的成功。与传统神经网络相似,RNN的隐藏状态可以看作是数据的一种表示,也就是说,RNN在时间步t处的隐藏状态可以看作是该时间步之前序列的总结。这在RNN编码器框架中尤为明显,编码器的任务是以解码器可以重构的方式来表示处于RNN隐藏状态的序列[12]。RNN表示的使用并不局限于单模态域。使用rns构造多模态表示的早期使用来自Cosi等人在AVSR上的工作。它们还用于表示影响识别的视听数据[37]、[152]和表示多视图数据,例如用于人类行为分析的不同视觉线索[166]。
联合多模表示的一种替代方法是协同表示。我们不是将模态一起投影到一个联合空间中,而是为每个模态学习单独的表示,但是通过一个约束来协调它们。我们从强调表示之间的相似性的协调表示开始讨论,接着讨论在结果空间上加强结构的协调表示。相似模型最小化了协调空间中模态之间的距离。例如,这种模型鼓励“狗”和“狗”图像的表示,它们之间的距离小于“狗”和“汽车”图像的表示之间的距离[61]。最早的例子之一就是韦斯顿等人的研究。在WSABIE(通过图像嵌入的网络比例注释)模型中,为图像及其注释构建了一个协调的空间。WSABIE从图像和文本特征构造了一个简单的线性映射,这样相应的注释和图像表示在它们之间会比不相关的注释和图像表示有更高的内积(更小的余弦距离)。
近年来,神经网络由于具有学习表示的能力,已成为一种常用的构造协调表示的方法。它们的优势在于能够以端到端的方式共同学习协调的表示。这种协调表示的一个例子是设计深度视觉语义嵌入[61]。设计使用了类似于WSABIE的内积和排序损失函数,但使用了更复杂的图像和单词嵌入。Kiros等[105]利用LSTM模型和两两排序损失来协调特征空间,将其扩展到句子和图像的协调表示。Socher等人[191]处理了相同的任务,但将语言模型扩展到依赖树RNN以合并组合语义。Pan等人也提出了类似的模型。[159],但使用视频而不是图像。Xu等人[231]还使用主题、动词、宾语组合语言模型和深层视频模型构建了视频和句子之间的协调空间。然后将该表示用于跨模式检索和视频描述任务。
结构化协调表示的另一个例子来自图像和语言的顺序嵌入[212],[249]。Vendrov等[212]提出的模型强制执行了一个不对称的不相似度量,实现了多模态空间中的偏序概念。其思想是捕获语言和图像表示的部分顺序——在空间上强制执行层次结构;例如“遛狗的女人”的形象→文本“遛狗的女人”→文本“女人走路”。 Young等人[238]也提出了一个使用符号图的类似模型,其中符号图用于诱导部分排序。最后,Zhang等人提出了如何利用文本和图像的结构化表示以一种无监督的方式创建概念分类[249]。
CCA计算一个线性投影,该投影最大化了两个随机变量(在我们的例子中是模态)之间的相关性,并强制新空间的正交性。CCA模型被广泛用于跨模态检索[76],[106],[169]和视听信号分析[177],[187]。对CCA的扩展试图构造一个最大相关非线性投影。核正则相关分析(Kernel canonical correlation analysis, KCCA)[116]使用复制核希尔伯特空间进行投影。但是,由于该方法是非参数的,因此它与训练集的大小之间的伸缩性很差,并且与非常大的实际数据集之间存在问题。引入了深正则相关分析(DCCA)[7]作为KCCA的替代方法,解决了可扩展性问题,并给出了更好的相关表示空间。类似的通信自动编码器[58]和深度通信RBMS[57]也被提议用于跨模式检索。
CCA、KCCA和DCCA是无监督的技术,只优化表示上的相关性,因此主要捕获跨模式共享的内容。深层规范相关的自动编码器[220]还包括一个基于自动编码器的数据重建术语。这促使表示也能捕获模态特定的信息。语义相关最大化方法[248]也鼓励语义相关性,同时保留相关最大化和由此产生的空间的正交性-这导致了CCA和跨模式散列技术的结合。
在本节中,我们确定了两种主要的多模态表示形式——联合和协调。联合表示将多模态数据投射到一个公共空间中,最适合在推理过程中出现所有模态的情况。它们被广泛用于AVSR、情感和多模手势识别。另一方面,协调表示法将每个模态投影到一个单独但协调的空间中,使其适用于测试时只有一个模态的应用,例如:多模态检索和翻译(第4节)、接地(第7.2节)和零镜头学习(第7.2节)。最后,虽然联合表示用于构建两种以上模态的表示,但到目前为止,协调空间主要限于两种模态。
多模态机器学习的很大一部分涉及从一种形式到另一种形式的映射。给定一个模态中的实体,任务是用不同的模态生成相同的实体。例如,给定一个图像,我们可能希望生成一个描述它的句子,或者给定一个文本描述,生成一个匹配它的图像。多模态翻译是一个长期研究的问题,在语音合成[88]、视觉语音生成[136]、视频描述[107]、跨模态检索[169]等领域都有早期的工作。
多模态翻译:一个特别受欢迎的问题是视觉场景描述,也称为图像[214]和视频字幕[213],它是许多计算机视觉和NLP问题的一个很好的测试平台。要解决这一问题,我们不仅要充分理解视觉场景,识别其突出的部分,而且要在语法上正确、全面而简洁的描述它的句子。虽然多模态翻译的方法非常广泛,而且通常是模态特有的,但它们有许多共同的因素。我们将它们分为两类——基于实例的和生成的。基于实例的模型在模式之间转换时使用字典。
基于实例的算法受到训练数据字典的限制,这类算法有两种类型
缺点:除非任务简单或字典很大,否则期望与源示例相关的完整和准确的翻译总是存在于字典中是不现实的。这部分由能够构建更复杂结构的组合模型来解决。然而,它们只能在一个方向上执行翻译,而基于语义空间检索的模型可以同时执行这两种方式。
在给定单模源实例的情况下,多模态翻译的生成方法构造了能够执行多模翻译的模型。已有三大生成模型
多模态翻译方法面临的一个主要挑战是很难对其进行评价。虽然语音识别等任务只有一个正确的翻译,但语音合成和媒体描述等任务没有。有时,就像在语言翻译中一样,多个答案都是正确的,决定哪个翻译更好往往是主观的。幸运的是,在模型评估中有许多近似的自动度量。
评价主观任务的理想方法是通过人的判断。那就是让一组人评估每一个翻译。这可以在Likert量表上进行,在该量表中,每个翻译都在一定的维度上进行评估:语音合成的自然度和平均意见分数[209]、[244]、视觉语音合成的现实性[6]、[203]以及媒体描述的语法和语义正确性、相关性、顺序和细节[38]、[112]、[142]、[213]
虽然人类研究是评估的黄金标准,但已经为媒体描述的任务提出了许多自动替代方案:BLUE [160]、ROUGE [124]、Meteor [48]和CIDEr[ 211]。这些指标直接取自(或基于)机器翻译中的工作,并计算出度量两者之间相似性的得分生成的和基本的真实文本。
我们认为,解决评价问题对多式翻译系统的进一步成功至关重要。这样不仅可以更好地比较各种方法,而且可以优化更好的目标。
定义:从两个或多个模态中查找实例子组件之间的关系和对应。 例如,给定一幅图像和一个标题,我们希望找到与标题的单词或短语对应的图像区域[98]。另一个例子是,给定一部电影,将其与剧本或书中它所基于的章节进行比对[252]。
我们显式地对在模式之间对齐子组件感兴趣,例如,使用相应的教学视频对齐菜谱步骤。
如果论文的主要建模目标是来自两个或多个模式的实例子组件之间的对齐,那么我们将其归类为执行显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于以不同模式度量子组件之间的相似性作为基本构建块。这些相似性可以手动定义,也可以从数据中学习。处理显式对齐的算法有两种
用作另一个任务的中间(通常是隐藏)步骤,例如,基于文本描述的图像检索可以包括单词和图像区域之间的对齐步骤[99]。 这使得在许多任务中,包括语音识别、机器翻译、媒体描述和视觉问答,可以获得更好的性能。这类模型不显式地对齐数据,也不依赖于监督对齐示例,而是学习如何在模型培训期间对数据进行隐式对齐。我们确定了两种类型的隐式对齐模型:早期基于图形模型的工作和更现代的神经网络方法。
多模态对齐面临许多困难
1)具有显式标注对齐的数据集较少
2)两种模式之间的相似度指标难以设计
3)可能存在多种可能的对齐方式,一种模式中的元素不一定在另一种模式中都有对应关系。
优点
(1)能够访问观察同一现象的多种模式,可能会使预测更加可靠。
(2)能够访问多种模式可能允许我们捕获互补的信息——一些在单独的模式中不可见的信息
(3)当其中一种模态缺失时,多模态系统仍然可以运行,例如,当一个人不讲[50]时,从视觉信号中识别情绪
应用: 视听语音识别(AVSR)[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]
优点: 它们几乎可以使用任何单模态分类器或回归器来实现。
多核学习(MKL): 对内核支持向量机(kernel support vector machines, SVM)的扩展,它允许对数据的不同模式/视图使用不同的内核[70]。由于内核可以看作是数据点之间的相似函数,MKL中特定于模式的内核可以更好地融合异构数据。 被用于多模态情感识别、多模态情绪识别、和多媒体事件检测(MED)
优点是能够方便地利用数据的空间和时间结构,使其在时间建模任务(如AVSR和多模态影响识别)中特别受欢迎。它们还允许将人类的专家知识构建到模型中,并经常导致可解释的模型。
应用: AVSR的研究[163]、 视觉和媒体的问答[63]、[130]、[229]、手势识别[150]、情感分析[96]、[153]和视频描述生成[94]。
缺点: 神经网络方法的主要缺点是缺乏可解释性。很难判断这种预测依赖于什么,以及哪种模式或特征起着重要作用。此外,神经网络需要大的训练数据集才能成功。
多模态融合仍然面临以下挑战
1)信号可能不是时间对齐的(可能是密集连续信号和稀疏事件)
2)难以建立利用补充信息而不仅仅是补充信息的模型
3)每种模态可能在不同的时间点表现出不同的类型和不同程度的噪声
通过从另一个(资源丰富的)模态中获取知识来帮助(资源贫乏的)模态建模。当其中一种模式的资源有限时(缺少带注释的数据、有噪声的输入和不可靠的标签),它尤其重要。我们称这种挑战为共同学习,因为大多数情况下,辅助模式只在模型训练中使用,在测试期间不使用。我们根据培训资源确定了三种类型的共同学习方法:并行、非并行和混合。
并行数据方法需要训练数据集,其中来自一种模式的观察直接链接到来自其他模式的观察。换句话说,当多模态观测来自相同的实例时,例如在视听语音数据集中,其中的视频和演讲样本来自同一个演讲者。
在并行数据共同学习中,两种模式共享一组实例——带有相应视频、图像及其句子描述的音频记录。这允许两种算法利用这些数据来更好地建模模式:联合训练和表示学习。
协同训练是在多模态问题[21]中只有少量的标记样本时,生成更多标记样本的过程。基本算法在每个模态中构建弱分类器,以便为未标记的数据彼此引导标签。研究表明,在Blum和Mitchell的开创性工作[21]中,人们发现了更多基于网页本身和超链接的网页分类培训样本。根据定义,该任务需要并行数据,因为它依赖于多模态样本的重叠。
非并行数据方法不需要在不同模式的观测之间建立直接联系。这些方法通常通过在类别上使用重叠来实现共同学习。例如,在零镜头学习中,传统的视觉对象识别数据集通过维基百科的第二个纯文本数据集进行扩展,以提高视觉对象识别的通用性。
依赖于非并行数据的方法不需要模式具有共享实例,而只需要共享类别或概念。非并行协同学习方法在学习表示时可以提供帮助,允许更好地理解语义概念,甚至可以执行不可见的对象识别。
零距离学习(Zero shot learning, ZSL)指在没有明确看到任何例子的情况下识别概念。例如,在没有见过(标记的)猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题,例如在许多任务中,如可视化对象分类:为每一个感兴趣的可想象对象提供培训示例是非常昂贵的。
在混合数据设置中,模式通过共享模式或数据集进行桥接。
最值得注意的例子是桥接相关神经网络[167],它使用一个中心模态来学习存在非并行数据的协调多模态表示。例如,在多语言图像标题的情况下,图像模式在任何语言中总是与至少一个标题配对。这些方法也被用来连接那些可能没有并行语料库但可以访问共享的枢轴语言的语言,例如机器翻译[148]、[167]和文档音译[100]。
有些方法不使用单独的模式进行桥接,而是依赖于来自类似或相关任务的大型数据集的存在,从而在仅包含有限注释数据的任务中获得更好的性能。Socher和Fei-Fei[189]利用大文本语料库的存在来指导图像分割。而Hendricks等[78]采用单独训练的视觉模型和语言模型,可以得到更好的图像和视频描述系统,但数据有限。
多模态联合学习允许一种模态影响另一种模态的训练,利用跨模态的互补信息。需要注意的是,联合学习是独立于任务的,可以用于创建更好的融合、转换和对齐模型。以协同训练、多模态表示学习、概念基础和零镜头学习(zero shot learning, ZSL)等算法为例,在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到了广泛的应用。
这篇综述论文的重点主要是过去十年的多模态研究,但是用过去成就的知识来解决未来的挑战是重要的。主要可以通过这篇文章了解到一些模型在多模态机器学习的整个地位以及分布 。
参考文章:
https://zhuanlan.zhihu.com/p/63143789
https://www.cnblogs.com/lizhe-cnblogs/p/14148905.html
https://zhuanlan.zhihu.com/p/53511144