VTN, a transformer-based framework for video recognition.
抛弃3D ConvNets,引入了一种通过关注整个视频序列信息来对动作进行分类的方法。
能够通过单个端到端的通道进行完整的视频分析。
并提出了VTN特性的消融研究以及准确性和推理速度之间的权衡。
基于transformer在许多任务上的应用,CNN的优势不在[8, 2, 27, 31]
[8]An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2021.
[2] End-to-end object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020.
[27]Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020.
[31] End-to-end video instance segmentation with transformers. arXiv preprint arXiv:2011.14503, 2020.
目前视频识别很大程度上依赖于ConvNets, 为了处理时间维度,一般使用3D ConvNets。
我们使用最先进的2D架构来学习空间特征表示,并在随后的数据流中通过在结果特征上使用注意机制来添加时间信息。
输入只有RGB视频帧。没有其他花哨的东西(光流,多尺度推理,多视图推理),实现了最先进的结果(state-of-the-art)。
视频识别中transformer是最佳候选。
缺点,仍然难以处理10s以上的长视频
VTN的时间处理模块基于Longformer[1]
[1]Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150, 2020.
同时框架展示了速度与准确率的权衡。
框架是模块化的,2D骨干网络可以用不同网络代替,注意力模块可以堆叠剁成,更多的头,或者设置为不同的transformer模型,可以处理长序列。
最后修改分类头可以适用不同的视频任务,如时间动作定位。
**Spatial-temporal networks: ** 大多数基于3D ConvNets ;[5]适用双流结构,一个适用RGB输入,另一个流用于光流输入。
[30] Non-local Neural Networks(NLN)一种自我注意的类型,它基于输入信号中不同位置之间的关系来计算响应。
[32]引入了一个长期特征库作为整个视频存储器
[11] SlowFast,一种在两条路径和不同帧速率下运行的网络架构。
[11] Slowfast networks for video recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6202–6211, 2019.
Transformers in computer vision:
图像分类的ViT和DeiT,用于对象检测和全景分割的DETR,视频实例分割的VisTR。
Applying Transformers on long sequences: BERT
Longformer: 并通过引入一个复杂度为O(n)的注意机制来实现冗长的文档处理。
VTN是一个通用的视频识别架构。单流数据输入。
VTN是模块化的,包括三个连续部分,一个2D空间特征提取模块,一个基于时间注意力的编码器,和一个分类MLP头
我们使用一个transformer模型架构,该架构应用注意机制在序列数据中建立全局依赖关系,然而由于transformer受限于处理tokens的数量,所以限制了处理长视频输入和整合远距离信息之间的联系的能力。
VTN中,使用整个视频作为输入,
ViT-B-VTN作为主干
R50/101-VTN
DeiT-B/BD/Ti-VTN
Training:
待续……