跨模态检索之文本视频检索(Text to Clip)(3)

《Learning Joint Embedding with Multimodal Cues for Cross-Modal Video-Text Retrieval》(2018 ACM)

在这篇文章之前,最优的跨模态视频文本检索方法是将多个视频帧进行合并,求均值,然后作为图像特征输入到图文检索框架中,从而取得最佳检索结果。

但是,作者认为这样是不够的,因为这类方法没有充分地利用视频中的信息,例如时间信息、动作信息、声音信息等等。这在一定程度上限制了视频文本检索的鲁棒性。因此,作者想要将更多的视频特征用在检索框架中,并且还对损失函数作了一点改进。

主要思想

作者提出了这样一个双流的,端到端的架构:
跨模态检索之文本视频检索(Text to Clip)(3)_第1张图片
首先是特征提取环节。这里用了4个不同的网络,分别用来提取4种不同的特征:sentence feature, appearance feature, motion feature和audio feature.

文本特征(sentence feature),用GRU网络提取,维度为1024。

然后是3个视频相关的特征。这三个特征分别对应视频的三种不同的特性,即视觉特性、时间特性和声音特性。

视觉特征(appearance feature),即用来识别每一个帧中所包含的实物对象(object)。具体地,用经过预训练的ResNet-152提取每一帧的图像特征,维度为2048,然后平均池化,就得到了appearance feature。

动作特征(motion feature),和上面二维图像的视觉特征不同,动作特征多了时间因素在里面,因此这里使用I3D网络来从连续的16个帧中提取出1024维的动作特征。

语音特征(audio feature),用SoundNet CNN提取,维度为1024。

在提取完特征之后,下一步就是把不同模态的特征映射到一个公共的空间中去跨模态检索之文本视频检索(Text to Clip)(3)_第2张图片

损失函数

文中采用了三元组损失函数,其中负样本选取的是最难负样本,也就是所有负样本中最接近正样本的那一个。这里作者加入了一个改动,即在两个求和符号前分别加了两个可变的系数L:

这个L系数时和正样本的排名相关的。从L的计算式中可以看出,L的取值范围是[1,2]。其中,N是候选样本数,r是该正样本的排名数。也就是说,正样本的排名越靠前,L就越小(接近1),反之就越大(接近2)。

实验

实验用到了两个数据集:MSR-VTT(10k个video,20sentences/video)和MSVD(1970个video,40sentences/video)。实验结果如图:
跨模态检索之文本视频检索(Text to Clip)(3)_第3张图片
跨模态检索之文本视频检索(Text to Clip)(3)_第4张图片
跨模态检索之文本视频检索(Text to Clip)(3)_第5张图片

你可能感兴趣的:(文献阅读,机器学习,人工智能,深度学习,计算机视觉)