CLIP4Clip:用于端到端视频检索的CLIP实证研究

Luo, Huaishao, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan and Tianrui Li. “CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval.” ArXiv abs/2104.08860 (2021).

1. Abstract

视频文本检索在多模态研究中起着至关重要的作用,已被广泛应用于许多实际的web应用中。CLIP(Contrastive Language Image Pretraining)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。在本文中,我们提出了一个CLIP4Clip模型,以端到端的方式将CLIP模型的知识迁移到视频语言检索中。本文通过实证研究探讨了以下几个问题:1)图像特征是否足以用于视频文本检索?2)基于CLIP的大规模视频文本数据集的post-pretraining如何影响性能?3)对视频帧之间的时间依赖性建模的实用机制是什么?4)模型对视频文本检索任务的超参数敏感性。大量实验结果表明,从CLIP迁移过来的CLIP4Clip模型可以在各种视频文本检索数据集(包括MSR-VTT、MSVC和LSMDC)上实现SOTA结果。我们将代码发布在https://github. com/ArrowLuo/CLIP4Clip。

2. Method, Experiment & Result

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第1张图片

图1. CLIP4Clip的框架,它有3个组件,包括两个单模态编码器和一个相似度计算器。该模型采用视频-文本对作为输入。我们首先将输入视频采样为顺序帧(图像);接下来将这些图像帧重塑为一系列展平的2D patches;再通过线性patch嵌入层将这些patches映射到1D嵌入序列,并输入图像编码器进行表示;最后,相似度计算器预测文本表示和这些帧的表示序列之间的相似度得分。在这项工作中,我们研究了三种类型的相似度计算器,包括无参数型、序列型和紧凑型。⊗表示余弦相似度。我们用CLIP(ViT-B/32)初始化两个单模态编码器。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第2张图片

图2. 视频编码器中Flattened Patches线性投影的不同视图。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第3张图片

表1. MSR-VTT数据集上text-to-video检索的结果。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第4张图片

表2. MSVD数据集上text-to-video检索的结果。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第5张图片

表3. LSMDC数据集上text-to-video检索的结果。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第6张图片

表4. ActivityNet数据集上text-to-video检索的结果。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第7张图片

表5. DiDeMo数据集上text-to-video检索的结果。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第8张图片

图3. 不同批量大小、帧长、冻结层和学习率对检索结果的影响。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第9张图片

表6. 采样策略研究。Head、Tail、Uniform是从视频中选择帧的三种采样策略。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第10张图片

表7. 使用HowTo100M-380k数据集对meanP模型进行post-pretraining测试。

CLIP4Clip:用于端到端视频检索的CLIP实证研究_第11张图片

表8. 在meanP上测试2D和3D patch。

3. Conclusion / Discussion

在本文中,我们使用预训练好的CLIP作为backbone来解决视频检索任务。我们使用无参数型、序列型和紧凑型相似度计算器来获得最终的结果。实验结果证明了模型的有效性,并在MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo数据集上实现了SOTA结果。此外,我们还从实证研究中得出以下几点启示:1)图像特征也能促进视频文本检索;2)在CLIP上进行post-pretrain,可以进一步提高视频文本检索的性能;3)3D patch线性投影和序列型相似度是检索任务中很有前途的方法;4)用于视频文本检索的CLIP具有学习率敏感性。

关注“多模态人工智能”公众号,一起进步!

你可能感兴趣的:(音视频,人工智能,深度学习,自然语言处理,计算机视觉)