ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了!

出品人:Towhee 技术团队

在去年 Swin Transformer 获得 ICCV 2021 最佳论文后,微软亚洲研究院又在今年推出了视频领域的佳作 Video Swin Transformer 。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜,在动作识别和时序建模任务上都优于 ViViT、TimeSformer 等网络!该模型在 Kinetics-400 上的准确率为 84.9% top-1,在 Something-Something v2 上的准确率为 69.6% top-1。

ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了!_第1张图片

Video Swin Transformer: an illustrated example of 3D shifted windows

从图像领域拓展到视频领域,Swin Transformer 在原来的基础上引入局部性的归纳偏置,并且有效利用了预训练图像模型。与之前相比,Video Swin Transformer 即使时空分解也可以全局计算自注意力,因此能够更好地权衡速度与准确率。

参考资料:

模型用例:action-classification/video-swin-transformer

论文地址:Video Swin Transformer

官方说明:屠榜视频理解几大任务!微软提出:Video Swin Transformer

其他资料:视频分类利器之Video Swin Transformer


更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

你可能感兴趣的:(ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了!)