【论文阅读】swin transformer阅读笔记

在vit以后证明了transformer在视觉任务中的一系列表现

video swin transformer在视频上很好的效果

swin MLP

自监督

掩码自监督

效果很炸裂

swin transformer成了视觉领域一个绕不开的baseline

题目

层级式移动窗口

层级式的特征提取,特征有多尺度的概念

MRSA微软亚洲研究院

viT只是做了分类的任务,这个可以适用于很多视觉任务

通过一种移动窗口的方式去学习,大大降低了序列的长度

移动的操作,可以让相邻的窗口有交互

层级式的结构很灵活,并且计算复杂度是线性增长的

在物体检测和物体分割上取得了很好的成绩

基于transformer的模型,在视觉领域很有潜力

引言

swin transformer想干的事情

想证明transformer可以用作一个通用的神经网络

viT是把图片打成patch,每一个token的尺寸是一样的,可以通过全局自注意力可以达到全局的特征,但是对于多尺寸的特征能力就比较弱

在viT里处理的都是单一尺寸,而且是low resolution

swin transformer是在小窗口上算自注意力

运用了局部性的先验知识

局部去计算自注意力

如何生成多尺寸的特征:

提出一个类似池化的操作

swin transformer可以当作一个通用的骨干网络

滑动窗口

加上shift的操作,patch可以和新的窗口别的patch进行交互

可以起到一个cross-window connection的作用

局部自注意力变成了全局注意力的操作

结论

要把swin transformer滑动的思想应用到nlp的领域

相关工作

卷积神经网络

自注意力

方法

整体

前向过程

首先把图片打成patch,patch size4*4

最后变成3136*96

swin transformer block

patch merging

同样序号的patch就会被merge到一起

用空间上的维度去换通道数

h * w * c 转换成 h/2 * w/2 * 2c

基于移动窗口的自注意力

全局的自注意力会导致平方倍的复杂度

用窗口的方式去做自注意力

在64个窗口中分别去算自注意力

先做一次基于窗口的自注意力

再做一次基于移动窗口的自注意力

就可以达到窗口和窗口之间的互相通信

循环位移

用序号去代替

加掩码算自注意力

把矩阵转置相乘

然后取自注意力想要的部分

设计了一个掩码的模版

实验

在imageNet上去做实验

在不同的算法框架下,swin transformer比卷积神经网络好多少

结论

swin transformer还被别的研究者用到了不同的领域

你可能感兴趣的:(论文阅读,论文阅读,transformer,笔记)