深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation及其PyTorch实现
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation
PDF: https://arxiv.org/pdf/2212.03035.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

本文提出了一种简单、高效和强大的语义分割方法IncepFormer,它包含一个具有Inception自注意和有效FFN的金字塔transformer编码器和一个轻量级的Upsample-Concat解码器。提出的incp-mhsa注重多尺度条形卷积的使用,在极大地降低复杂度的同时,获得了更好的局部特征提取和空间注意力建模。

深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第1张图片

2 IncepFormer

2-1 Overview

深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第2张图片
InceptFormer由两个主要部分组成:1)金字塔Inception Transformer编码器用于捕获粗粒度和细粒度特征;2)轻量级上采样Concat解码器合并多尺度特征并进行piexl级预测。

2-2 Inception Transformer Encoder

将InceptionNet中的多尺度卷积思想应用于transformer。所提出的初始transformer可以捕获更丰富的上下文信息,同时显著降低计算复杂性。Inception Transformer Block (IPTB) 表示如下:
在这里插入图片描述

2-2-1 Incep-MHSA

Incep-MHSA结构如下:
深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第3张图片
Incep MHSA在X上应用三个不同的分支来生成特征图。
深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第4张图片
然后将特征图堆叠起来:
在这里插入图片描述
得到的token序列O比输入X更平更短。此外O包含输入X的丰富的上下文抽象信息,因此在计算MHSA时可以作为输入X的替代。

在这里插入图片描述
替换为
在这里插入图片描述
Q、K、V送入到自我注意力模块以计算注意力度,其公式如下:
在这里插入图片描述

2-2-2 E-FFN

基于原始的FFN,Mix-FFN在第一个(FC) layer 和GELU间插入3×3 的可分离卷积,使用1×1 convolution 替代FC layer,得到E-FFN

深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第5张图片
E-FFN公式如下:
在这里插入图片描述

2-3 A Simple Upsample-Concat Decoder

将每个阶段的特征图上采样到原图的1/4,并拼接在一起。然后,采用1 × 1卷积对拼接后的特征图进行线性transformer。最后,将拼接后的特征图输入到另一个1× 1卷积中,预测分割掩码M。
深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第6张图片
公式表示为:
深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第7张图片

3 Experiments

深度学习论文: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第8张图片

你可能感兴趣的:(Semantic,Segmentation,Paper,Reading,Deep,Learning,深度学习,transformer,人工智能)