【论文笔记】MPViT论文阅读笔记

paper:MPViT : Multi-Path Vision Transformer for Dense Prediction

github:https://github.com/youngwanLEE/MPViT

一、引言

传统的ViT模型使用单尺度的PatchEmbedding,MPViT提出使用多尺度PatchEmbedding和多路并行的网络结构,同时移除了cls token。

【论文笔记】MPViT论文阅读笔记_第1张图片

MPViT主要做出了以下贡献:

(1)提出多尺度Patch Embedding并行提取特征的方法;

(2)提出全局-局部特征交互方法,更好地利用卷积提的局部连通性和transformer的全局上下文信息;

(3)在图像分类、目标检测、实例分割、语义分割等任务上验证MPViT的有效性。        

二、网络

1、Multi-Scale Patch Embedding

多尺度Patch Embedding结构如下,对于输入特征图,使用不同大小的卷积核来得到不同尺度的特征信息(论文这么写的,但是源码看到卷积核都是3),为了减少参数,使用3x3的卷积核叠加来增加感受野达到5x5、7x7卷积核的感受野,同时使用深度可分离卷积来减少参数。

【论文笔记】MPViT论文阅读笔记_第2张图片

2、 Global-to-Local Feature Interaction

transformer擅长提取全局信息,但是可能会忽略结构信息核patch之间的相互关系,而CNN由于共享权重,更关注于局部连通信息。Global-to-Local Feature Interaction可以将CNN和Transformer提取的局部和全局信息结合起来。

为了减少Self-Attention的计算量,使用下方分解后的Attention计算方法:

 正常的Attention计算公式为:

 当Q\K\V的维度[N, C]时,他们的计算复杂度为:

Attention FactorAtt
复杂度 CN^{2} NC^{2}

注意这里计算量减少的原因:MS Patch Embedding输出的特征图分辨率较高,所以N远大于C。

Global-to-Local Feature Interaction结构如下,Transformer Encoder可能有多层。

【论文笔记】MPViT论文阅读笔记_第3张图片

3、网络结构

MPViT网络结构如下图所示,需要注意Transformer Encoder可以有多层(Transformer Encoder源码)。

【论文笔记】MPViT论文阅读笔记_第4张图片

 网络配置如下(Layers表示Transformer Encoder的数量,Channels是Encoder通道数):

【论文笔记】MPViT论文阅读笔记_第5张图片

 三、实验结果

1、图像分类(ImageNet-1K)

【论文笔记】MPViT论文阅读笔记_第6张图片

2、目标检测和实例分割(COCO) 

【论文笔记】MPViT论文阅读笔记_第7张图片

3、语义分割(ADE20K)

在语义分割任务上的表现和Segformer比还是有些差距。

【论文笔记】MPViT论文阅读笔记_第8张图片

你可能感兴趣的:(深度学习,图像处理,ViT,深度学习,计算机视觉,人工智能)