Swin Transformer论文笔记

动机:解决尺度问题和计算复杂度高的问题

Shifted Window based MSA

上图中红色区域是window,灰色区域是patch。W-MSA将输入图片划分成不重合的windows,然后在不同的window内进行self-attention计算。假设一个图片有h*w的patches,每个window包含MxM个patches,那么MSA和W-MSA的计算复杂度分别为:

每个windows内部分别计算各个patch之间的权重

由于window的patch数量远小于图片patch数量,W-MSA的计算复杂度和图像尺寸呈线性关系。

要保证可以并行计算,需要窗口的大小一致

整体结构

图像输入为H/4*W/4的patch块,每个块的特征维度是4x4x3=48,在stage1部分,先通过linear embedding将patch的特征维度变成C,然后送到Swin Transformer Block,在接下来的stage,将输入按照2x2的相邻patch合并,每个patch的特征维度变成4C,patch块的数量变成H/8xW/8

你可能感兴趣的:(视觉Transformer,计算机视觉,人工智能)