A. Introduction
这篇文章已经提出了RNN存在的缺点
B. Discussion
RNN的主要弱点是,善于进行短期记忆,不擅长进行长期记忆。
RNN的主要弱点是,善于进行短期记忆,不擅长进行长期记忆。由于激活函数(输出值取值范围[0,1])的存在,信息和残差在RNN神经元中传递时,会逐时间步损耗(简单来说就是绝对数值越来越小)。这个特点,削弱了RNN神经元保留距离当前时间步较远信息的能力,或者说,弱弱了RNN刻画长序列的能力。假设我们要从“贪污和浪费是极大的犯罪”抽取近义词,当模型从左到右、处理到”犯罪”的时候,“贪污”的语义已经被忘记,那么“犯罪-贪污”这对近义词就无法召回了。当然,实际发生的,是神经元“当前状态”,即语义向量里,所包含”贪污”越来越弱。看起来像是一个加权可以解决的问题。
LSTM(Long-Short Term Memory Neural Network,长短期记忆网络)是Transformer出现之前,理论和实践中表现最好的序列建模工具之一,催生了”BiLSTM+CRF”等应用非常广泛的神经网络模型结构
LSTM神经元在时间维度上向后传递了两份信息:cell state和hidden state
hidden state是cell state经过一个神经元和一道“输出门”后得到的,因此hidden state里包含的记忆,实际上是cell state衰减之后的内容
实际上hidden state里存储的,主要是“近期记忆”;cell state里存储的,主要是“远期记忆”
另一种解释:通过cell的计算公式可以看出该单元能够存储全部时间步的信息(ft为1),有点highway的感觉,因此能保存长期记忆;而hidden是网络在cell的基础上进行特征选择的结果
提出了一个名为StyleNet的新框架,以解决为图像和视频提供具有不同风格的图片字幕的任务。
第一层输入图片和真实的图片字幕进行学习
第二层和第三层输入浪漫风格和幽默风格的文本集
这三层都有一个factored LSTM结构用于学习,其中的参数是共享的除了特定的风格因子矩阵:SF, SR, SH
通过多任务学习
文献中常用的策略是采用预训练的CNN模型作为编码器,将图像映射到固定维度的特征向量,然后使用LSTM模型作为解码器,根据图像向量生成字幕。
参考博文:“看图说话”(Image Caption)——如何生成多样化的图片描述? - 知乎 (zhihu.com)
Factored LSTM:因式分解传统LSTM中的参数Wx为三个矩阵Ux, Sx, Vx。
是上一篇论文的基础
对于机器来说,从视频像素中提取含义并生成听起来自然的语言是一个非常复杂的问题。已经为具有一小组已知操作和对象的狭窄域提出了解决方案,但是对于开放域视频的描述仍然具有挑战
在本文中使用单个深度神经网络将视频像素转换为自然语言。通过从辅助任务中转移知识来解决需要大量的监督训练数据问题。
使用长短期记忆网络(LSTM)递归神经网络建模
“It also allows us to first pre-train the model on a large image and caption database, and transfer the knowledge to the video domain where the corpus size is smaller.”它还允许我们首先在大型图像和字幕数据库上对模型进行预训练,并将知识传输到语料库大小较小的视频域。
这里就是对上篇论文训练方式的补充解释
这些模型的工作原理是首先在图像上应用特征变换以生成固定维向量表示。然后,他们使用序列模型,特别是递归神经网络 (RNN),将向量 “解码” 成句子 (即单词序列)。在这项工作中,我们应用了将视觉矢量 “翻译” 成英语句子的相同原理,并表明它可以很好地描述动态视频和静态图像。
RNN 可以学习映射预先知道输入和输出之间对齐的序列,但是尚不清楚它们是否可以应用于输入 (xi) 和输出 (zi) 的问题长短不一的。
训练流程:使用 LSTM 来“解码”代表视频的视觉特征向量以生成文本输出。
注意:
想看全文翻译可以参考这篇博客:http://t.csdn.cn/TOZ0Z
这篇文章首先引入基于注意力的机制
这篇文章的主要贡献有如下几点:
这篇论文的模型
可以看出,整体仍是 Encoder-Decoder 结构,Encoder 部分没有做改变,在 Decoder 中引入了 attention。
简单循环神经网络 (RNN) 和我们的多模式循环神经网络 (m-RNN) 架构的图示。 (a)简单的循环神经网络。 (b)这篇文章的 m-RNN 模型。
文章模型的输入是图像及其相应的句子描述。 w1, w2, …, wL 表示句子中的单词。为所有训练句子添加一个开始标志 wstart 和一个结束标志 wend。该模型在给定先前单词和图像的情况下估计下一个单词的概率分布。
它由五层(即两个词嵌入层、一个循环层、一个多模态层和一个 softmax 层)和每个时间帧中的深度 CNN 组成。每层上方的数字表示该层的维度。权重在所有时间范围内共享。 (最好看彩色)
论文中描述的CMU-MOSEI数据集规模最大的三模态数据集之一,且具有情感和情绪两个标签,情感从negative到positive一共有7个类别,情绪包含愤怒、开心、悲伤、惊讶、害怕和厌恶6个类别,标签的数值在[-3~3]之间。数据集给出了原始数据,但是过于原始,即给出的是文本,音频和视频文件,图像还得自己去以固定频率捕获并且和文本语音对其还是比较麻烦的。大多实验都使用处理好的实验数据。
作者通过归纳不同的方面,将目前主流的caption方法归类为以下几种:(在section 2里面详细说明)
其次作者又再次将基于深度学习的方法归类为以下几种:(在section 3中详细说明)
视觉空间vs.多模态空间
在基于视觉空间的方法中,图像特征和相应的字幕独立地传递给语言解码器。
相反,在多模态空间的情况下,从图像和相应的字幕文本中学习共享的多模态空间。然后将这种多模态表示传递给语言解码器。
视觉部分使用深度卷积神经网络作为特征提取器来提取图像特征。语言编码器部分提取单词特征,并学习每个单词的密集特征嵌入。然后它将语义时间上下文转发到循环层。
多模态空间部分将图像特征映射到具有单词特征的公共空间中。
然后将生成的映射传递给语言解码器,该解码器通过解码映射生成描述。
该类别中的方法遵循以下步骤 :
(1) 使用深度神经网络和多模态神经语言模型在多模态空间中共同学习图像和文本。
(2) 语言生成部分使用来自步骤1的信息生成字幕。
监督学习vs.其他深度学习
在监督学习中,训练数据带标签 。
基于监督学习的图像描述方法分为不同的类别:(i)编码器-解码器架构,(i i)组合架构,(i i i)基于注意力机制,(i v)基于语义概念,(v)风格化描述,(v i)基于对象的新的描述,以及(v i i)密集图像描述。
此类别中的方法遵循以下步骤:
密度描述vs.整个场景的描述
编码器-解码器体系结构vs.合成架构
在该网络中,从CNN的隐藏激活中提取全局图像特征,然后将其输入到LSTM中生成单词序列。
编码器-解码器体系结构
此类典型方法具有以下一般步骤:
基于组合体系结构的方法,由几个独立的功能构建块组成:首先,使用CNN从图像中提取语义概念。然后使用语言模型来生成候选字幕集合。在生成最终字幕时,使用深度多模态相似性模型对这些候选字幕进行重新排序。
此类别的典型方法包含以下步骤:
其余方法
这篇文章写的很详细,但我觉得逻辑不是很好,特别是在总分结构的举例子里
基于语义概念的图像描述
基于新对象的图像描述
风格化描述
LSTM vs. Others
传统的RNN存在着消失和爆炸的梯度问题,不能充分处理长期的时间依赖性。
LSTM网络是一种RNN,除了标准单元外,还具有特殊单元。LSTM单元使用一个存储单元,它可以在内存中长期保存信息。近年来,基于LSTM的学习任务排序模型被广泛应用。另一个网络,选通循环单元(GRU)的结构与LSTM相似,但它不使用单独的内存单元,使用较少的选通来控制信息流。
然而,LSTMs忽略了句子的底层层次结构。由于通过内存单元的长期依赖性,它们还需要大量的存储。相比之下,CNN可以学习句子的内部层次结构,并且它们的处理速度比LSTM快。因此,最近,卷积结构在其他序列中用于对任务进行排序,例如,条件图像生成和机器翻译。
总体任务可以分为三个阶段:特征学习,监督训练和测试
三种学习设置:多模式融合,交叉模态学习和共享表示学习
在多模态融合设置中,来自所有模态的数据在所有阶段都可用; 这代表了在视听语音识别中的大多数先前工作中考虑的典型设置
在交叉模态学习中,来自多种模态的数据仅在特征学习期间可用; 在监督训练和测试阶段,仅提供来自单一模态的数据。对于这种设置,目的是在给定来自多个模态的未标记数据的情况下学习更好的单模态表示
共享的表示学习设置,该设置的独特之处在于为监督训练和测试提供了不同的方式。此设置使我们能够评估特征表示是否可以捕获不同模态之间的相关性
最直接的特征学习方法之一是分别针对音频和视频训练RBM模型。我们使用这个模型作为基准来比较我们的多模态模型的结果,以及预训练深度网络(图 2a,b)。
为了训练多模式模型,一种直接方法是在连接的音频和视频数据上训练RBM (图2c)。虽然这种方法对音频和视频数据的分布进行联合建模,但它仅限于浅层模型。特别是,由于音频和视频数据之间的相关性是高度非线性的,因此 RBM 很难学习这些相关性并形成多模态表示。
因此,文章考虑在每个模态的预训练层贪婪的训练一个RBM,前面的第一层的隐藏值作为新层的训练数据。通过学习到的第一层特征来表示数据可以更容易的让模型来学习跨模态的高阶相关性。通俗的来说,第一层特征相当于音位和视位,第二层模型化了他们之间的关系。
(a)中示出了“仅视频”输入模型,其中该模型在仅给定视频作为输入的情况下学习重建两种模态。对于“仅音频”输入设置,可以绘制类似的模型。
我们以去噪方式训练 (b) 双模态深度自动编码器,使用带有示例的增强数据集,这些示例要求网络在仅给定一个模态的情况下重建两种模态。两种模型都使用稀疏 RBM 进行了预训练(图 2d)。
但实际上,我们扩充时一个模态用全零作为输入,另一个模态用原始值作为输入,但是依旧要求模型重建这两个模态。因此,三分之一的训练数据只有视频作为输入,三分之一的训练数据只有语音作为输入,最后三分之一既有视频又有语音。
由于使用稀疏 RBM 进行初始化,我们发现即使在深度自动编码器训练之后,隐藏单元的预期激活也很低。因此,当其中一个输入模态设置为零时,第一层表示也接近于零。在这种情况下,我们实际上是在训练特定于模式的深度自动编码器网络(图 3a)。实际上,该方法学习了一个模型,该模型对不存在模态的输入具有鲁棒性。
第二章只有2.1,这篇文章是不是不太规范
这篇文章与多模态特征融合是相关的,但是是双模态
分类:表示和融合
Visual Grounding 视觉定位:
visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测
Visual grounding系列–领域初探 - 森林海的文章 - 知乎 https://zhuanlan.zhihu.com/p/388504127
特征融合即输入两个模态的特征向量,输出融合后的向量。最常用的方法是拼接(concatenation)、按位乘(element-wise product)、按位加(element-wise sum)。MCB的作者认为这些简单的操作效果不如外积(outer product),不足以建模两个模态间的复杂关系。但外积计算存在复杂度过高的问题。由于外积由于其高维度而通常是不可行的,因此作者提出多模态紧凑双线性池(MCB),在VQA和视觉定位任务中都取得了先进的结果。
递归神经网络 (RNN) 通常用于表示句子或短语 ,并且卷积神经网络 (CNN) 已显示出最能表示图像 。
本文的还有一个亮点在于,对于VQA任务,使用两次MCB-一次用于预测对于空间特征的attention,另一次用于融合文本特征和视觉特征。
在VQA中,模型的输入是图像和问题,目标是回答问题。模型提取图像和问题的表示形式,使用MCB池向量,并通过将问题视为具有3,000可能类的多类分类问题来得出答案。
这里用到了两次MCB模块,第一个MCB融合图像特征和文本特征计算图像每个空间位置的attention weight。第二个MCB融合图像特征和文本特征得到答案。
首先使用在 ImageNet 数据 上预训练的 152 层残差网络 提取图像特征。图像大小调整为 448×448,我们使用 1000 路分类器之前的层(“pool5”)的输出。然后我们对 2048-D 向量执行 L2 归一化。
对于视觉表示中的每个空间网格位置,使用 MCB 池将视觉特征的切片与语言表示合并。
为了整合空间信息,在MCB池化方法上使用软注意力。
在池化之后,使用两个卷积层来预测每个网格位置的注意力权重。
输入问题首先被标记为单词,单词被单热编码并通过学习嵌入层传递。嵌入后使用 tanh 非线性。嵌入层之后是一个 2 层 LSTM,每层有 1024 个单元。每个 LSTM 层的输出连接起来形成一个 2048 维向量。
然后这两个向量通过 MCB。 MCB 之后是逐元素符号平方根和 L2 归一化。在 MCB 池化之后,一个完全连接的层将生成的 16,000 维多模态表示连接到 3,000 个最佳答案。
这是一个数据集
论文中描述的CMU-MOSEI数据集规模最大的三模态数据集,且具有情感和情绪两个标签。但是这里要注意,数据集是多标签特性,即每一个样本对应的情绪可能不止一种,对应情绪的强弱也不同,在[-3~3]之间。数据集的原始数据给出了,但是过于原始,即给出的是文本,音频和视频文件,图像还得自己去以固定频率捕获并且和文本语音对其还是比较麻烦的。大多实验都使用处理好的实验数据。
A. Introduction
B.相关工作
多模态融合使我们能够利用多模态数据中存在的互补信息,从而发现信息对多模态的依赖性。
多模态融合方法
早期融合
晚期融合
中间融合
both intra- and inter- modal.
上一篇12.双线性池化文章就属于这一类。类似于利用交互的想法,Zadeh 等人. (2017) 提出张量融合网络(Tensor Fusion Network,TFN),它计算来自三种不同模态的单模态表示之间的外积,以计算张量表示。
但是,此类方法的计算复杂度呈指数增长,因为多个模态上的外积会导致极高维张量表示。
然而,这些先前的工作中没有一个旨在将低秩张量技术应用于多模态融合。
本文的低秩多模态融合方法提供了一个更有效的方法来计算基于张量的多模态表示,具有更少的参数和计算复杂度。
记忆融合网络MFN
TFN是张量融合网络
文章分类:表示和融合
这篇文章的介绍部分首先简介了什么叫多视角数据,即多模态数据,接着介绍了多视图序列学习存在两种交互,接着提出MFN并对结构进行介绍,最后介绍模型的验证,以及和之前的方法相比取得了最优结果。
17,18年是注意力机制开始统治学术界的一年,很多工作都做了这方面的工作。
Multi-View Sequential Learning:多视图序列学习 ,即多模态序列学习。多视图学习通过挖掘不同视图之间的一致性和互补性,可以比单视图学习更有效、更有前景、泛化能力更强。文章中的multi view其实指代可以很广泛,许多地方也叫做多模态。本文中的多模态数据以序列形式来表示。
对于多模态序列学习而言,模态往往存在两种形式的交互:模态内关联(view-specific interactions)和模态间关联(cross-view interactions)。这篇文章提出了Memory Fusion Network(MFN)方法来处理这种多模态序列建模,用于对模态内与模态间的不同处理。
MFN组成:
用memory的目的是能保存上一时刻的多模态交互信息,gated过滤,Attention分配权重。
Modality Embedding Subnetworks
模态嵌入子网络按照三个不同的模态分为Spoken Language Embedding Subnetwork、Visual Embedding Subnetwork和Acoustic Embedding Subnetwork。
在上图提取语言模态特征时,首先通过GloVe将每个单词转化为300维的向量,然后通过LSTM来恢复之前被稀释或丢失的可用信息并输出hi,将h1、h2、h3……hTi串联而成的语言矩阵表示为hl。然后将hl用作全连接网络的输入,该网络生成语言嵌入zl。
作者使用FACET模型来检测说话人的面部表情,并提取7种基本情绪(愤怒、蔑视、厌恶、恐惧、喜悦、悲伤和惊讶)和两种高级情绪(挫折和困惑)。还使用OpenFace对每帧的头部位置、头部旋转和68个面部地标位置进行了估计。
对于每个意见音频,作者使用COVAREP声学分析框架来提取一组声学特征。
在张量融合层之后,每个观点话语都可以表示为一个多模态张量 。作者使用了一个完全连接的深层神经网络,称为情绪推理子网络Us,其权重Ws以为条件。该网络的体系结构由两层128个ReLU激活单元组成,连接到决策层。
另外,作者在实验中使用了Us网络的三种变体形式,分别用来完成三个不同的情感分类任务。
(1)第一个网络训练用于二元情感分类,使用二元交叉熵损失的单个sigmoid输出神经元。
(2)第二个网络设计用于五类情绪分类,并使用分类交叉熵损失的softmax概率函数。
(3)第三个网络使用单个sigmoid输出,使用均方误差损失进行情绪回归。
这篇文章可以再引申一下
多模态表示学习的主要目标是缩小联合语义子空间中的分布差距,同时保持特定模态的语义的完整。
典型模型与三个框架之间的联系
三种框架的典型应用总结
A. 特定模态表示
尽管各种不同的多模态表示学习模型可能共享相似的架构,但用于提取特定模态特征的基本组件彼此之间可能会有很大的不同。
它们可以集成到多模态学习模型中,并与其他组件一起进行训练。
B.联合表示
整合不同类型的特征来提高机器学习方法性能的策略一直被研究使用。
为了弥合不同模态的异质性差距,联合表示的目的是将单峰表示投射到一个共享的语义子空间中,在那里多模态特征可以融合。
在每个模态通过单个神经网络编码后,它们都将被映射到一个共享的子空间,在那里,模态共享的概念将被提取并融合到一个单一的向量中。
优点:
缺点:
不能用来推断每个模态的分离表示。
C. 协调表示
协调表示框架是在某些约束[18]下学习每个模态的分离但协调的表示。
由于在不同模式中包含的信息是不平等的,学习分离的表示有助于坚持独家和有用的模式特异性特征[31]。
通常,在约束类型的条件下,协调表示方法可以分为两组,基于跨模态相似性和基于跨模态相关性。
基于跨模态相似性的方法旨在学习一个共同的子空间,其中向量的距离可以直接测量[75],而基于跨模态相关的方法的目的是学习一个共享的子空间,从而使不同模式的表示集的相关性最大化[5]。
这里主讲前者,后者留到后面
跨模态相似度方法在相似度度量的约束下学习协调表示。该模型的学习目标是保持模态间和模态内相似结构,缩小类内矩扩大类间距。
除了学习模态间相似性度量外,跨模态应用还应保持模态内相似性结构。
一种广泛使用的策略[30],[79]是对学习特征进行分类,使它们在每个模态中都具有鉴别性。
另一种方法是在每个视图中保持邻域结构。
另外[80]提出通过协调表示模型来学习图像-文本嵌入,该模型将交叉视图排序约束与视图损失函数内邻域结构保存约束相结合。
与其他框架相比,协调表示倾向于坚持每个模态中唯一且有用的模态特定特征
优点:
由于不同的模态被编码在分离的网络中,每个模态都可以单独推断出来。这一有利于跨模态迁移学习,旨在跨不同的模式或跨领域转移知识。
缺点:
大多数情况下,很难学习具有两种以上模式的表示。
D.编解码器
将一种模态映射到另一种模态 编码器将源模态映射到一个潜在的向量v中,然后,基于向量v,解码器将生成一个新的目标模态样本。
表面上,编码解码器模型学习到的潜在向量似乎只与源模式有关,但实际上,它与源模式和目标模式都密切相关。由于纠错信号的流动方向是从解码器到编码器的,因此编码器在训练过程中由解码器引导。随后,生成的表示法倾向于从这两种模式中捕获共享的语义。
优点:
能够在源模态表示上生成目标模态条件新的样本。
缺点:
每个编码器-解码器只能编码其中一种模式。此外,应该考虑到设计生成器的复杂性,因为生成合理目标的技术仍在其开发中。
包括深度置信网络(DBN)[97]和深度玻尔兹曼机(DBM)[98]。前者是由定向信念网络和RBM层组成的部分有向模型,后者是完全无向模型。
优点:
缺点:
相当高的计算成本[102]
无监督,不需要标签[103]
编码器将输入转换为一个压缩的隐藏向量,也称为潜在表示,而解码器则努力基于这种潜在表示重构输入,从而使重构损失最小化。
使用自动编码器来提取中间特征的模型可以分成两个阶段。 第一步,在无监督学习的基础上,通过分离的自动编码器提取特定于模态的特征。
然后,将施加一个特定的监督学习程序来捕获跨模态相关性。
优点:
缺点:
由于该模型主要是为通用目的而设计的,为了提高其在特定任务中的性能,需要涉及额外的约束或监督学习过程。
是一种最初用于测量一对集合之间的相关性的方法。在多模态表示学习场景中,给定两组数据,每对都是包含两种模式的数据样本,CCA的目标是找到两组基向量用于将多模态数据映射到共享的d维子空间,使得这样投影表示之间的相关性最大化[5],[110]。
如果每个集合的均值为零,目标函数如下
基本的CCA仅限于建模线性关系,一个非线性扩展是核CCA[111],它在应用CCA方法之前将数据转换为高维希尔伯特空间。但是可伸缩性[112]较差,因为它的封闭形式的解决方案需要计算高时间复杂度和内存消耗;而且效率很差,这是由于它在转换一个看不见的实例[117]时需要访问所有的训练集。
通常,最大化相关目标侧重于学习共享的语义信息,但往往忽略特定模态的知识。为了解决这个问题,应该考虑额外的正则化术语。
优点:
可以以无监督的方式进行训练
缺点:
计算复杂度较高,这可能会限制其在数据大小上的可伸缩性。
作为一种无监督的学习方法,它可以用于学习数据表示,而不涉及标签,从而显著降低了对人工注释的依赖性。
此外,作为一种生成方法,它可以根据训练数据的分布生成高质量的新样本。
与经典的表示学习方法相比,GANs的一个明显区别是,数据表示的学习过程并不简单。这是一种隐含的范式。与传统的无监督表示方法不同,如直接学习从数据到潜在变量的映射的自动编码器,GANs学习从潜在变量到数据样本的反向映射。具体来说,生成器将一个随机向量映射到一个独特的样本中。因此,这个随机信号是一个对应于生成的数据的表示。
多模态问题的两个关键特点和六个核心挑战
两个原则
参考链接:http://t.csdn.cn/W8Kif
端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征