IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

1:使用了金字塔结构的transformer encoder。
2:每一层的特征进过concat输入到卷积层用于分割。
3:结合一个类似于Inception的结构和逐深度卷积,和强量化的前向模块。
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第1张图片
segformer和P2T将卷积和池化应用于注意力层去减少复杂度,但是他们只使用其中的一个,作者使用了两个。使用inception的多尺度卷积的思想,可以捕捉丰富的上下文信息,同时减少计算量。
主要的incep-mhsa模块:
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第2张图片
借鉴inception的架构思想,通过三种不同的分支产生特征图,一条分支为条状卷积1xn和nx1,一条直接使用了3x3卷积,另一条使用了平均池化后接逐深度卷积。
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第3张图片
因为k和v是进过下采样的,所以token长度相比于直接展开会变短,因此就减少了计算量同时增加了上下文信息。在Inception中,有效的下采样方法就是通过多路分支下采样然后concat在一起,而非直接的下采样对视过多的信息,这个地方为什么不使用膨胀卷积呢?我觉得膨胀卷积是为了避免下采样到来的信息损失同时增大感受野,而这里本来就需要卷积下采样来减小计算量。
然后仍是普通的多头自注意力机制:
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第4张图片
一个有效的前向传播模块:
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第5张图片
一个简单的上采样拼接模块:
作者在结果中发现©的效果是最好的,如果将feature的特征统一的话会损失通道信息。
IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第6张图片
实验:相比于CNN-based和transformer-based的结构,发现达到了SOTA。IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation_第7张图片

你可能感兴趣的:(paper总结,transformer,深度学习,人工智能,pytorch,计算机视觉)