[Video Transformer] VTN: Video Transformer Network

https://arxiv.org/abs/2102.00719

SlowFast/README.md at master · bomri/SlowFast · GitHub

ICCV2021

Video action recognition

总结:相当于把CNN+LSTM结构中的LSTM替换为VTN

适用于处理长视频,在inference时可以一次输入整个视频

模型框架是模块化的,2D backbone可以换成不同的网络,注意力模块也可以设置为不同的transformer模型,修改分类头可以适用于不同的视频任务。

[Video Transformer] VTN: Video Transformer Network_第1张图片

与当前其他的视频处理网络不同,VTN不使用3D卷积,而是采用2D的空间卷积来得到空间信息,并利用Longformer进行时间处理。

总体结构一共可以分为三个部分:

  • 2D 空间特征提取:从每一帧图像中提取特征,可以用CNN也可以用VIT等纯transformer。可以随机初始化并和Longformer一起训练,也可以使用预训练模型并固定权重。
  • temporal-base encoder:使用了 Longformer 结构。《 Longformer: The long-document transformer》专为处理长序列而设计。在inference时一次处理整个视频。在feature sequence前面加入了一个class token,
  • classification MLP head:Longformer 的结果其实也是一个向量,最终需要通过FC进行分类。MLP包含两个线性层,Dropout,一个GELU非线性层。

使用一些spatial backbones pre-trained on 2D images来测试VTN的效果:

[Video Transformer] VTN: Video Transformer Network_第2张图片

[Video Transformer] VTN: Video Transformer Network_第3张图片

[Video Transformer] VTN: Video Transformer Network_第4张图片

[Video Transformer] VTN: Video Transformer Network_第5张图片

[Video Transformer] VTN: Video Transformer Network_第6张图片

你可能感兴趣的:(video,transformer,transformer,深度学习,人工智能)