《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译
《用于非对齐多模态语言序列的多模态Transformer》
论文地址:[1906.00295] Multimodal Transformer for Unaligned Multimodal Language Sequences (arxiv.org)
代码地址:
GitHub - yaohungt/Multimodal-Transformer: [ACL'19] [PyTorch] Multimodal Transformer
人类语言通常是多模态的,包括自然语言、面部手势和声音行为的混合。然而,建模这种多模态的人类语言时间序列数据存在两个主要的挑战:1)由于每个模态序列的采样率可变,导致固有的数据不对齐;2)跨模式元素之间的长期依赖关系。
在本文中,我们引入Multimodal Transformer (MulT),以端到端方式解决上述问题,而无需显式对齐数据。我们模型的核心是方向性两两跨模态关注,它关注跨不同时间步的多模态序列之间的相互作用,并潜移默化地从一个模态流调整到另一个模态流。对对齐和非对齐多模态时间序列的综合实验表明,我们的模型在很大程度上优于最先进的方法。此外,实证分析表明,本文所提出的交叉注意机制能够捕获相关的交叉注意信号。
人类语言不仅具有口头语言,还具有非语言行为,从视觉(面部属性)和声学(声调)模式(Gibson et al., 1994)。这些丰富的信息为我们理解人类行为和意图提供了好处(Manning et al., 2014)。然而,不同语言模式之间的异质性往往增加了分析人类语言的难度。例如,音频和视觉流的受体可能会随着接收频率的变化而变化,因此我们可能无法获得它们之间的最佳映射。皱眉可能与过去说过的悲观的话有关。也就是说,多模态语言序列往往表现出“不对齐”的性质,需要推断跨模态的长期依赖,这就提出了执行高效多模态融合的问题。
为了解决上述问题,在本文中,我们提出了Multimodal Transformer (MulT),这是一个端到端的模型,扩展了标准Transformer网络(V aswani等人,2017),直接从未对齐的多模式流中学习表示。我们的模型的核心是跨模态注意模块,它关注整个话语尺度上的跨模态互动。这个模块通过重复强调一个模态的特征和其他模态的特征,来潜移默化地从一个模态到另一个模态(例如,视觉→语言)不考虑对齐的需要。相比之下,处理未对齐多模态序列的一种常见方法是在训练前强制单词对齐(Poria et al., 2017;Zadeh等人,2018a,b;Tsai等人,2019;Pham等人,2019年;Gu et al., 2018):通过将视觉和声学特征与单词的分辨率对齐来手动预处理。然后,这些方法将在(已经)对齐的时间步上模拟多模态相互作用,因此不直接考虑原始特征的长期跨模态偶发。我们注意到,这样的文字排列不仅需要涉及领域知识的特征工程;但在实践中,它可能也不总是可行的,因为它需要额外的数据集元信息(例如,单词或讲话的确切时间范围)。我们演示了单词对齐和由图1中的模型推断出的跨频注意之间的区别。
为了进行评估,我们在三种人类多模态语言基准上进行了一套全面的实验:CMU-MOSI (Zadeh等人,2016),CMU-MOSEI (Zadeh等人,2018b)和IEMOCAP (Busso等人,2008)。我们的实验表明,MulT实现了最先进的(SOTA)结果,不仅在通常评估的单词对齐设置,而且更具有挑战性的不对齐场景,在大多数指标上超过了之前的方法的5%-15%。此外,实证定性分析进一步表明,多模态分析所使用的跨模态注意能够跨异步模态捕获相关信号。
图1电影评论中的示例视频剪辑。[上面]词级对齐的图示,其中视频和音频特征在每个口语的时间间隔内被平均。[下面]文本(“壮观”)和视觉/音频之间的交叉模式注意权重的图示。
为了进行评估,我们在三个人类多模态语言基准上进行了一系列全面的实验:CMU-MOSI、CMU-MOSEI、IEMOCAP。我们的实验表明,MulT达到了最先进的(SOTA)结果,不仅在常用评估的词对齐设置中,而且在更具挑战性的未对齐场景中,在大多数指标上都比以前的方法高出5%-15%的差距。此外,经验性定性分析进一步表明,MULT使用的跨模态注意能够捕获跨不同模态的相关信号。
先前对人类多模态语言的分析工作涉及到从语言、视觉和听觉的多模态序列推断表征的领域。与从静态领域(如图像和文本属性)学习多模态表征不同(Ngiam等人,2011;Srivastava和Salakhutdinov, 2012),人类语言包含时间序列,因此需要融合时变信号(Liang et al., 2018;Tsai et al., 2019)。早期工作使用早期融合方法拼接来自不同模式的输入特征(Lazaridou等人,2015;Ngiam等人,2011),并显示与从单一模式学习相比,性能有所提高。最近,人们提出了更先进的模型来学习人类多模态语言的表示。例如,Gu等。Wang et al.(2018)使用分层注意策略学习多模态表征。Pham等人(2019)使用伴随的非言语行为调整了词汇表征。(2019)学习了使用循环翻译目标的鲁棒多模态表示,Dumpala等人(2019)探索了用于视听对齐的跨模态自动编码器。之前的这些方法基于这样的假设,即多模态语言序列在单词的解析中已经对齐,并且只考虑短期的多模态交互。相比之下,我们提出的方法不需要对齐假设,并在整个序列的尺度上定义了跨模态相互作用。
Transformer Network。Transformer Network
首次被引入神经机器翻译(NMT)任务,其中编码器和解码器侧各自利用自我注意(Parikh et al., 2016;林等人,2017;V aswani等人,2017)变压器。
在自我注意的每一层之后,编码器和解码器通过附加的解码器子层连接,其中解码器针对目标文本的每个元素处理源文本的每个元素。我们建议读者参阅(V aswani et al., 2017)以获得对该模型的更详细的解释。除了NMT,变压器网络也已成功应用于其他任务,包括语言建模(Dai等人,2018;Baevski和Auli, 2019)、语义角色标注(Strubell等人,2018)、词义消歧(Tang等人,2018)、学习句子表征(Devlin等人,2018)和视频活动识别(Wang等人,2018)。
本文吸取了NMT变压器的强大启发,将其扩展到多模态设置。虽然NMT转换器专注于从源文本到目标文本的单向翻译,但人类多模态语言的时间序列既不像单词嵌入那样具有良好的表示,也不像单词嵌入那样离散,每个模态序列具有截然不同的频率。因此,我们不建议明确地从一种模式转换到其他模式(这可能是极具挑战性的),而是通过注意力来潜在地适应不同模式的元素。因此,我们的模型(MulT)没有编码器-解码器结构,但它是由多个堆叠成对和双向的交叉注意块,直接关注低级特征(同时删除自我注意)。经验上,我们证明了我们提出的方法在各种人类多模态语言任务上的改进超过了标准转换器。
在本节中,我们描述了我们提出的用于建模非对齐多模态语言序列的多模态转换器(MulT)(图2)。
在高层,MulT通过前馈融合过程从多个方向两两交叉模态变压器合并多模态时间序列。具体地说,每个跨模态转换器(在第3.2节中介绍)通过学习对两种模态特征的注意,用来自另一种源模态的低级特征反复强化目标模态。因此,MulT体系结构使用这种交叉模态变压器对所有模态进行建模,然后使用融合特征进行预测的序列模型(例如,自我注意变压器)。我们提出的模型的核心是跨模态注意模块,我们在3.1节中首先介绍了该模块。然后,在第3.2和3.3节中,我们详细介绍了MulT体系结构的各种成分(参见图2),并讨论了跨模态注意和经典多模态对齐之间的区别。
图2 MulT在模态(L,V,A)上的总体框架。跨模态transformers是MulT中用于多模态融合的核心部件,具有潜在的跨模态适应性。
跨模态注意
我们考虑两个模态 α 和 β ,每个模态的两个序列(潜在未对齐)分别表示为
和 。在本文的其余部分,分别用 和 表示序列长度和特征维数。受NMT中将一种语言翻译成另一种语言的解码器transformer的启发,我们假设,融合跨模态信息的一个好的方法是提供一种跨模态的潜在适应,即 β 到 α 。请注意,我们论文中考虑的模态可能跨越非常不同的领域,例如面部属性和口语。
我们定义查询(Query)为 ,键(key)为 ,值(value)为 ,其中 , , :
注意, 和 有相同的长度(即),但同时在 的特征空间中表示。具体的说,公式(1)中按比例 缩放的 softmax 计算分数矩阵 ,其第 项测量由模态的第 个时间步长对模态 的第 个时间步长给予的关注度。因此, 的第 个时间步长是 的加权总和,其权重由 中的第 行确定。我们称公式(1)为单头跨模态注意,如图3(a)所示。
图3(a):跨模态注意 来自不同模态的序列 和 之间
基于先前关于transformer的工作,我们在跨模态注意计算中添加了残差连接(residual ——connection)。然后引入positionwise feed-forward(相当于全连接层)以组成完整的跨模态注意块(如图3(b))。每个跨模态注意块直接适应与低级特征序列(即图3(b)中的 ),并且不依赖与自注意力(self-attention),这使得它不同于NMT编解码器的体系结构。我们认为,从低层特征进行自适应有利于我们的模型保留每个模态的低层信息。在第4.3节中,我们将从中级特征(即 )适应的实证研究留在消融研究中。
图3(b):跨模态transformer是几个跨模态注意块的深层堆叠。
图3:来自模态 和 的两个时间序列之间的跨模态transformer的架构元素
多模态语言序列通常涉及三种主要模态:语言(L)、视频(V)和音频(A)模态。我们用 表示这3中模态的输入特征序列(及其维数)。有了这些符号,在这一小节中,我们将更详细地描述多模态Transformer的组件以及如何应用跨模态注意模块。
时间卷积
为了确保输入序列的每个元素对其邻域元素有足够的感知,我们将输入序列通过一维时间卷积层: 其中 是模态 的卷积核大小, 是公共维度。卷积序列预计将包含序列的局部结构,这一点很重要,因为序列是以不同的采样率收集的。此外,由于时间卷积将不同通道的特征投影到相同的维度,因此点积在跨模态注意模块中是允许的。
位置嵌入
为了使序列能够携带时间信息,在(Vaswani等人,2017)之后,我们将位置嵌入(PE)添加到 上: (3) 。其中 计算每个位置索引的(固定)嵌入, 是针对不同模态产生的低级位置感知特征。我们将位置嵌入的更多细节留在附录A中。
Crossmodal Transformers
基于跨模态注意块(crossmodal attention blocks ),我们设计了跨模态Transformer(crossmodal transformer ),使一种模态能够接收来自另一模态的信息。在下面的示例中,我们使用将视觉 (V) 信息传递给语言 (L) 的示例,用 表示。我们将每个跨模态注意块的所有维度 固定为 。每个跨模态transformer由D层跨模态注意块组成(见图3(b))。形式上,跨模态transformer按照 层进行前馈计算:
其中 是由 参数化的positionwise feed-forward 子层, 表示位于第 层的 的多头版本。LN表示层归一化。在这个过程中,每个模态通过来自多头跨模态注意模块(multi-head crossmodal attention module )的底层外部信息不断更新其序列。在跨模态注意块的每个级别,来自源模态的低级信号被变换成一组不同的键/值对以与目标模态交互。经验上,我们发现跨模态transformer学习跨模态关联有意义的元素(有关详细信息,请参见第4节)。最终的MulT是基于对每对跨模态交互进行建模的。因此,考虑到3种模态(即L、V、A),我们总共有6台跨模态transformer(参见图2)。
Self-Attention Transformer and Prediction
作为最后一步,我们将来自共享相同目标模态的跨模态transformers的输出连接起来,以产生 。例如, 。然后,它们中的每一个都通过序列模型来收集时间信息以进行预测。我们选择self-attention transformer。最后,提取序列模型的最后一个元素,通过全连接层进行预测。
在对未对齐的多模态语言序列进行建模时,MulT依赖于跨模态注意块来合并跨模态的信号。虽然在训练之前的先前工作中,多模态序列被(手动)比对到相同的长度,但我们注意到,MulT通过完全不同的角度来看待非对其问题。具体地说,对于MulT来说,多个模态元素之间的相关性纯粹基于注意力。换言之,MulT不会通过(简单地)对齐来处理模态不对齐;相反,跨模态注意鼓励模型直接关注存在强信号或相关信息的其他模态中的元素。因此,MulT能够以一种常规对其不容易揭示的方式捕捉远程跨模态突发事件。另一方面,传统的跨模态对齐可以表示为一个特殊的(阶梯对角线)跨模态注意矩阵(即单调注意(Yu et al.,2016))。我们在图4中说明了它们的区别。
图4 使用注意矩阵实现从模态 到 的可视化对齐的示例。多模态对齐是跨模态注意的一种特殊(单调)情况。
在本节中,我们在三个数据集上对多模态变压器(MulT)进行了实证评估,这些数据集在之前的研究中经常用于对人类多模态情感识别进行基准测试(Pham等人,2019;Tsai等人,2019;Liang et al., 2018)。我们的目标是在词对齐(几乎所有之前的作品都采用了词对齐)和非对齐(更具挑战性,MulT通常是为多模态语言序列设计的)的多模态语言序列上将MulT与之前的竞争方法进行比较。
数据集和评估指标
每个任务由一个单词对齐(处理方式与前面的工作相同)和一个未对齐的版本组成。对于这两个版本,从文本(GloV e词嵌入(Pennington等人,2014))、视觉(Facet (iMotions, 2017))和声学(COV AREP (Degottex等人,2014))数据模式中提取多模态特征。附录中包含了对特性的更详细介绍。
对于单词对齐的版本,如下(Zadeh等人,2018a;Tsai等人,2019;Pham等人,2019年),我们首先使用P2FA (Y元和Liberman, 2008年)来获得对齐的时间步(分段w.r.t。
(Words)的音频和视觉流,然后我们对这些时间范围内的音频和视觉特征进行平均。所有单词对齐的序列的长度都是50。整个过程在所有数据集上都是相同的。另一方面,对于未对齐的版本,我们保留了提取的原始音频和视觉特征,没有任何分词对齐或手动子采样。结果,每个模态的长度变化很大,其中音频和视觉序列可能包含多达>1000个时间步。我们将在下面详细阐述这三项任务。
CMU-MOSI & MOSEI.
CMU-MOSI (Zadeh等人,2016)是一个人类多模态情感分析数据集,包含2199个简短的独白视频片段(每个片段的时长相当于一句话)。CMUMOSI的声学和视觉特征分别以12.5和15 Hz的采样率提取(而文本数据按每个单词分割并表示为离散单词嵌入)。与此同时,CMU-MOSEI (Zadeh等人,2018b)是一个情绪和情感分析数据集,由23454个电影评论视频片段从Y ouTube(约10× CMU-MOSI的大小)组成。未对齐的CMU-MOSEI序列以20 Hz的采样率提取听觉信号,15 Hz的采样率提取视觉信号。
对于CMU-MOSI和CMU-MOSEI,每个样本都由人工注释员用从-3(强烈负面)到3(强烈正面)的情感分数进行标记。我们使用各种度量来评估模型的性能,这与以前的工作中采用的方法是一致的:7-class accuracy7级准确度(即 中的情感得分分类),binary accuracy二进制精度(即 正面/负面情绪),F1 分数 ,mean absolute error (MAE) of the score,和the correlation of the model’s prediction with human(模型预测与人体的相关性)。这两个任务经常用于对模型融合多模态(情感)信息的能力进行基准测试。
IEMOCAP
IEMOCAP (Busso et al., 2008)由10K个视频组成,用于人类情感分析。Wang et al.(2019)选择4种情绪(快乐、悲伤、愤怒和中性)进行情绪识别。与CMU-MOSI和CMU-MOSEI不同,这是一个多标签任务(例如,一个人可以同时悲伤和愤怒)。它的多模态流考虑音频(12.5 Hz)和视觉(15 Hz)信号的固定采样率。我们跟随(Poria等人,2017;Wang et al., 2019;Tsai et al., 2019)报告了二元分类精度和预测的F1分数。
我们选择早期融合LSTM (EF-LSTM)和晚期融合LSTM (LF-LSTM)作为基线模型,以及循环参与V变异嵌入网络(RA VEN) (Wang et al., 2019)和多模态循环翻译网络(MCTN) (Pham et al., 2019),在各种词对齐的人类多模态语言任务中实现SOTA结果。为了全面地比较这些模型,我们将连接主义者时间分类(CTC) (Graves等人,2006)方法与先前不能直接应用于未对齐设置的方法(如EFLSTM、MCTN、RA VEN)相适应。具体来说,这些模型训练以优化CTC对齐。目标与人的多模态目标同时进行。我们将CTC模块的更详细的处理留在附录中。为了公平比较,我们将所有模型的参数数量控制为近似相同。超参数在附录中报告。
词对齐实验。
我们首先在单词对齐的序列上评估MulT,这是先前建模人类多模态语言的方法的“主场”(Sheikh等人,2018;Tsai等人,2019;Pham等人,2019年;Wang et al., 2019)。表1、2和3的上半部分显示了MulT和基线方法在单词分配任务上的结果。使用类似的模型大小(大约200K参数),MulT在所有任务上的不同指标上都优于其他竞争方法,除了IEMOCAP上的“悲伤”类结果
不对齐的实验。
接下来,我们在未对齐设置的同一组数据集上评估MulT。注意,MulT可以直接应用于未对齐的多模态流,而基线模型(LF-LSTM除外)需要额外的对齐模块(例如,CTC模块)。
结果显示在表1、2和3的底部部分。在三个基准数据集上,MulT在大多数属性上比之前的方法(有些带有CTC)提高了10%-15%。
经验上,我们发现,与其他竞争方法相比,MulT在训练中收敛更快,获得更好的结果(见图5)。此外,虽然我们注意到,当我们从单词对齐的多模态时间序列切换到非对齐的多模态时间序列时,通常所有模型的性能都会下降,但MulT所产生的影响比其他方法小得多。我们假设出现这种性能下降是因为异步(和更长的)数据流在识别重要特性和计算适当的注意力方面带来了更多的困难。
图5 与未对齐的CMU-MOSEI任务上的其他基线比较时,MULT的验证集收敛性
表1 基于CMU-MOSI的对齐和非对齐多模态序列的多模态情感分析结果。h表示越高越好,l表示越低越好。 EF代表早期融合,LF代表晚期融合
表2:在CMU-MOSEI上(相对大规模)对齐和非对齐多模态序列的多模态情感分析结果。
表3:基于IEMOCAP的对齐和非对齐多模态情绪分析结果。
消融研究
为了进一步研究MulT中单个成分的影响,我们使用CMU-MOSEI的未对齐版本进行全面的烧蚀分析。结果如表4所示。首先,我们考虑仅使用单峰transformers(即,仅语言、音频或视觉)的性能。我们发现,语言transformers的性能远远超过其他两种语言transformers。例如,对于 度量,将纯音频与纯语言单模态transformer进行比较时,模型从65.6提升到77.4。这一事实与先前工作(Pham等人,2019年)的观察结果一致,在先前的工作中,作者发现一个好的语言网络在推理时已经可以取得良好的性能。
其次,我们考虑
1、一种晚融合transformer,它按特征串联了三个自注意transformers的最后一个元件。
2、一种接受三个异步序列 的早期融合自我注意变压器,经验上,我们发现EF-和LF-Transformer(融合多模态信号)的性能都优于单模态变压器。
3、我们根据目标模态研究了单个跨模态transformers的重要性(例如 网络)。如表4所示,在未对齐的CMU-MOSEI上,
我们发现,在未对齐的CMU-MOSEI上的大多数指标中,跨模态注意模块比后期和早期融合变压器模型持续改进。特别是在三种跨模态转换中,以语言(L)为目标模态的转换效果最好。
此外,我们还研究了在跨通道注意块(类似于NMT编码器-解码器架构,但没有自我注意;见3.1节)。虽然在其他烧蚀条件下,利用中级特征的MulT仍然优于模型,但我们从经验上发现,从低级特征中调整效果最好。这些结果表明,跨模态注意具体地有利于多模态学习,使其获得更好的表征学习。
表4:利用CMU-MOSEI对MulT跨模态变压器效益的消融研究)。
为了理解跨模态注意是如何在建模未对齐的多模态数据时起作用的,我们通过可视化注意激活来实证检验MulT接收到的是哪种信号。图6显式了MulT第三层 网络上的跨模态注意矩阵的一部分(原始矩阵具有维度 ,该图显示了与该矩阵的大约6秒短窗口相对应的注意力)。我们发现跨模态注意已经学会了注意跨两种模态的有意义的信号。例如,更强烈的注意力会集中在那些倾向于暗示情感的词语(如“电影”、“令人失望”)和视频中剧烈的面部表情变化(上述视觉序列的开始和结束)的交集上。这一观察结果证明了MulT相对于传统对齐的一个上述优势(见第3.3节):跨频注意使MulT能够直接捕捉潜在的远程信号,包括注意矩阵上的对角线。
图6:CMU-MOSEI上[V→L]跨频变压器第三层跨频注意权重样本的可视化。我们发现,跨模态注意已经学会了将某些有意义的单词(如“movie”、“令人失望”)与更强的视觉信号片段(通常是更强的面部运动或表情变化)联系起来,尽管原始的L/V序列之间缺乏对齐。注意,由于时间卷积,每个文本/视觉特征都包含附近元素的表示。
5.结论
在本文中,我们提出了用于分析人类多模态语言的多模态变压器(Multimodal Transformer, MulT)。多模态分析的核心是跨模态注意机制,通过直接关注其他模态的低阶特征,提供了一种潜在的跨模态适应机制,融合了多模态信息。而之前的方法主要集中在对齐的多模式流,MulT作为一个强大的基线,能够捕获长期偶发,无论对齐假设。经验上,我们表明,与之前的方法相比,多方法表现出最好的性能。
我们相信,MulT在未对齐的人类多模态语言序列上的结果为其未来的应用提供了许多令人兴奋的可能性(例如,视觉问答任务,其中输入信号是静态和时间进化信号的混合)。我们希望MulT的出现可以鼓励在一些任务上的进一步探索,在这些任务中,联合曾经被认为是必要的,但跨通道的注意力可能是一个同等(如果不是更多)竞争性的选择。