论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第1张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第2张图片

最先进的ViT使用单尺度的patch embedding和单路径transformer编码器

MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。

Ø将多尺度patch嵌入,通过重叠卷积将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。

Ø然后,来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中,执行全局自我关注。

Ø然后聚合生成的特征,从而在相同的特征级别上实现精细和粗略的特征表示。

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第3张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第4张图片

由于我们的目标是探索用于密集预测的强大骨干网络,因此我们构建了一个多级体系结构。具体来说,构建了一个四阶段特征层次结构,用于生成不同尺度的特征图。

它们输出密集预测任务四个阶段中,作者在每个阶段对所提出的Multi-scale Patch Embedding(MS-PatchEmbed)和Multi-path Transformer(MP-Transformer)块进行堆叠。

由于多级体系结构具有更高分辨率的特点,因此它本质上需要更多的计算。因此,由于其线性复杂性,我们对整个模型使用了包括Factorzed Self attention的Transformer编码器。

 论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第5张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第6张图片 论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第7张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第8张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第9张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第10张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第11张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第12张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第13张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第14张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第15张图片

论文阅读:MPViT : Multi-Path Vision Transformer for Dense Prediction_第16张图片

思考:如何应用/改进 

你可能感兴趣的:(论文阅读,深度学习)