【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021

《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021

快手和北大的工作,视频文本检索任务,即让视频和文本对齐,已经用于快手的各个场景中。

视频-文本对齐方法

【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021_第1张图片

现有的视频-文本对齐的方法有三类:

  • Two-stream,文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer,然后在多模态 Transformer 中融合,代表方法例如 ViLBERT、LXMERT等。
  • Single-stream,文本和视觉信息只通过一个多模态 Transformer 进行融合,代表方法例如 VisualBERT、Unicoder-VL等。
  • Dual-stream,文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT、T2VLAD等。

显然第三类双塔类型的时间开销是最小的,本文也是采用双塔结构,以满足大规模视频文本检索需求。

本文主要有两个创新点:1、不仅在最后一层表征对齐,还在第一层表征对齐。2、引入MoCo的动量更新机制到对比学习匹配中。

第二点比较复杂,每个塔还有一个动量更新塔,因此一共用4个模型(四塔模型)存在。再加上两层对比学习loss,一对pair样本会有4个pair loss需要计算。

模型

【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021_第2张图片

首先所有的Encoder都是Transformer。

对于一对video-Text样本,text输入Query Text Encoder和Key Text Encoder,video抽帧,然后拉成序列再输入Query Video Encoder和Key Text Encoder。输出是所有token embedding的pooling。

所以一共有4个Encoder模型获得输入,分别有两个模型(Query-Key)的输入是相同的,Key模型是由Query模型动量更新的。

Key 模型也各自维护一个Text/Video负样本队列。分别有Video作为Query、Text作为Key的对比学习loss;还有Text作为Query、Video作为Key的loss。

【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021_第3张图片

然后又在底层和顶层计算loss,又翻倍,因此一共有4个loss。

【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021_第4张图片

实验

【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021_第5张图片

你可能感兴趣的:(多模态,论文解读,CV,transformer,深度学习,人工智能)