Is Space-Time Attention All You Need for Video Understanding?阅读笔记

Is Space-Time Attention All You Need for Video Understanding?阅读笔记

Abstract

提出一种无卷积的视频分类方法,完全建立在对空间和时间的自我关注上。

TimeSformer:直接通过帧级别的patches中学习时空特征,来使Transformer架构适应视频。实验中对比不同self-attention方案,提出divided attention,其中时间注意和空间注意分别应用于每个块。

1 Introduction

首先提出transformer在NLP领域中的成功,视频理解与NLP的几个高级相似之处。视频和句子都是连续的,短期片段中的动作需要与视频的其他部分进行上下文关联,以便完全消除歧义。

讲self-attention从图像空间拓展到3D空间,讲图像模型ViT应用于视频。

TimeSformer:将视频视为从单个帧中提取的一系列patches。

在ViT中,每个面片被线性映射到一个嵌入中,并用位置信息进行扩充。这使得有可能将得到的向量序列解释为令牌嵌入,该令牌嵌入可以被馈送到转换器编码器,类似于从自然语言处理中的单词计算的令牌特征

标准Transformer中的self-attention操作的一个缺点使,它需要计算所有标记对的相似性度量。

针对这个问题,提出多种方案,最佳的设计为,“分散注意力”(divided attention)的体系结构 。该体系结构在网络的每个块中分别应用时间注意力和空间注意力。

而且模型可以对于多分钟的视频远程建模。

2 Related Work

我们的方法的效率主要来自于将视频分解成一系列帧级补丁,然后将这些补丁的线性嵌入作为输入令牌嵌入馈送到转换器。

Transformer用于视频生成

Scaling Autoregressive Video Models

3 The TimeSformer Model

Input clip: 将原始视频剪裁成$ H \times W 的 的 F 个 R G B 帧 的 片 段 , 个RGB帧的片段, RGBX \in R^{H \times W\times 3 \times F}$

Decomposition into patches:

根据ViT方法,将每帧分解成N个不重叠的patches,每个patches的大小为 P × P P \times P P×P,使得N个patches覆盖整个帧,即, N = H W / P 2 N=HW/P^2 N=HW/P2。将这些patches展平成向量 x ( p , t ) ∈ R 3 P 2 x_{(p,t)}\in R^{3P^2} x(p,t)R3P2其中 p = 1 , . . . , N p=1, . . . , N p=1,...,N N N N表示空间位置, t = 1 , . . . , F t=1, ... , F t=1,...,F表示帧上的索引。

Linear embedding: 通过可学习矩阵 E E E,将patch x ( p , t ) x_{(p, t)} x(p,t)映射成一个嵌入向量 z ( p , t ) ( 0 ) ∈ R D z^{(0)}_{(p,t)} \in R^D z(p,t)(0)RD

z ( p , t ) ( 0 ) = E x ( p , t ) + e ( p , t ) p o s z^{(0)}_{(p,t)} = Ex_{(p,t)}+e^{pos}_{(p,t)} z(p,t)(0)=Ex(p,t)+e(p,t)pos

其中 e ( p , t ) p o s e^{pos}_{(p,t)} e(p,t)pos表示一个可学习的位置嵌入,用于编码每个patch的时空位置。其中 z ( p , t ) ( 0 ) z^{(0)}_{(p,t)} z(p,t)(0)表示Transformer的输入。

如BERT Transformer一样,我们在序列的第一个位置添加了一个特殊的可学习向量 z ( 0 , 0 ) ( 0 ) ∈ R D z^{(0)}_{(0, 0)} \in R^D z(0,0)(0)RD,表示分类标记的嵌入。

Query-Key-Value computation:

Transformer由L个编码块组成。在每个block块 l l l中,

q , k , v q, k, v q,k,v向量使通过每一个patch的前一个块编码计算得到。

Self-attention computation:

self-attention权重是通过点乘计算得到。

Encoding:

Classification embedding:

Space-Time Self-Attention Models:

缺点,降低了计算成本,只在每一帧内增加注意力,忽略了捕捉跨帧的时间相关性。与完全时空关注相比,这种方法导致分类精度下降,尤其是在需要强时态建模的基准上。

提出一种更有效地空间注意力结构,称为“Divided Space-Time Attention"用(T+S表示)

对于注意力分散的模型,我们在时间和空间维度上学习不同的查询/键/值矩阵。实验表明,这种时空分解不仅更有效,而且提高了分类精度。

4 Experiments

在四个流行的动作识别数据集上评估:Kinetics-400, Kinetics-600, Something-Something-V2, Diving-48

所有实验,采用了在ImageNet上预处理的”Base“ Vit模型

使用 8 × 224 × 224 8\times 224\times 224 8×224×224的clip,帧以1/16的速率采样。patch大小设置为16 × 16像素。

4.1 Analysis of Self-Attention Schemes

因为与联合时空注意相比,分离时空注意具有更大的学习能力(见表1),因为它包含时间注意和空间注意的不同学习参数。

4.2 Varying the Number of Tokens in Space and Time

(待续……)

你可能感兴趣的:(文献阅读,人工智能,计算机视觉)