TimeSformer: 只靠 Transformer 就能理解视频?注意力机制的又一次进击!

出品人:Towhee 技术团队

Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频理解新架构,完全基于Transformer,能够彻底摆脱 CNN!仅用三分之一的时间训练,TimeSformer 就能以十倍的速度推理,并且在多个行为识别数据集得到超群的效果。论文中使用的数据集包括 Kinetics-400,Kinetics-600、Something-Something-v2 、Diving-48 和 HowTo100M ,均验证了 TimeSformer 的高性能!

TimeSformer: 只靠 Transformer 就能理解视频?注意力机制的又一次进击!_第1张图片

TimeSformer: Visualization of 5 space-time self-attention schemes

TimeSformer 可以捕获整个视频的时间和空间依赖性。它将输入视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,类似 Transformer 在 NLP 中的部分用法。与现代的 3D 卷积神经网络相比,TimeSformer 不仅加速了训练过程,也大幅减少了推理时间。除此之外,由于 TimeSformer 的可拓展性,它更具发展潜力,能够处理更长的视频片段、训练更大的模型。

参考资料

模型用例:action-classification/timesformer

论文地址:Is Space-Time Attention All You Need for Video Understanding?

其他资料:
Facebook AI 提出 TimeSformer:完全基于 Transformer 的视频理解框架

TimeSformer 解析:视频理解中的transformer

TimeSformer:视频理解所需的只是时空注意力吗?


更多项目更新及详细内容请关注我们的项目(https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

你可能感兴趣的:(数据模型神经网络人工智能)