粗读Is Space-Time Attention All You Need for Video Understanding?

        由于视频处理与语言处理存在一定的相似性,都是连续的且要关注上下文,因此作者设计出了一种新的注意力机制,同时关注该帧不同区域的信息和前后几帧的信息,实现无卷积的视频分类。

粗读Is Space-Time Attention All You Need for Video Understanding?_第1张图片

        在上图中,蓝色为所要查询的格子,红色等其他颜色为注意力覆盖区域,没上色的表示计算注意力时没关注这些格子。传统的ViT只关注目前这一帧的其他区域,而本文会关注前后帧的信息。

        同时,本文关注的是Divided Space-Time Attention方法,即图中第三列方法,这种方法相比于第二列,可以节省内存需求量,同时依然取得优秀的结果

你可能感兴趣的:(深度学习,视频识别)