VTN:视频Transformer网络

可与现有backbone结合,使其具有超强视频分类/理解的能力,如ViT/DeiT+ VTN 真香!训练速度提高了16.1倍,运行速度提高了5.1倍,代码和预训练模型即将开源!

注1:文末附【Transformer】流群

Video Transformer Network
在这里插入图片描述

  • 作者单位:Theator公司
  • 论文:https://arxiv.org/abs/2102.00719

本文介绍了VTN,这是一种基于Transformer的视频识别框架。 受视觉Transformer最新发展的启发,我们放弃了基于3D ConvNets的视频动作识别标准方法,并介绍了一种通过关注整个视频序列信息对动作进行分类的方法。
在这里插入图片描述
我们的方法是通用的,并且建立在任何给定的2D空间网络之上。就运行时间而言,与其他最新方法相比,它在推理期间的训练速度提高了16.1倍,运行速度提高了5.1倍,同时保持了竞争优势。 它通过单次端到端传递就可以进行完整的视频分析,同时所需的GFLOP减少了1.5倍。

实验结果

我们在Kinetics-400上报告了竞争性结果,并提出了VTN属性的消融研究以及准确性和推理速度之间的权衡。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

我们希望我们的方法将成为新的基线,并开始在视频识别领域进行新的研究。代码和模型即将推出。
在这里插入图片描述

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer6666。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVe微信公众号,可以快速了解到最新优质的CV论文。

在这里插入图片描述

你可能感兴趣的:(Transformer,计算机视觉论文速递,深度学习,机器学习,人工智能,计算机视觉,自然语言处理)