语义分割Swin Transformer

语义分割在ADE20K上刷到53.5 mIoU,超过之前SOTA大概4.5 mIoU!

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

(Swin Transformer:使用移位窗口分层视觉变换器)

Transformer从NLP迁移到CV上没有大放异彩主要有两点原因:

1. 两个领域涉及的scale不同NLP的scale是标准固定的,而CV的scale变化范围非常大

2. CV比起NLP需要更大的分辨率,而且CV中使用Transformer的计算复杂度是图像尺度的平方,这会导致计算量过于庞大。为了解决这两个问题,Swin Transformer相比之前的ViT做了两个改进:

1.引入CNN中常用的层次化构建方式构建层次化Transformer

2.引入locality思想,对无重合的window区域内进行自注意力计算

注:

mIOU(均交并比):计算真实值和预测值两个集合的交集并集之比。这个比例可以变形为TP(交集)比上TP、FP、FN之和(并集)。即:mIOU=TP/(FP+FN+TP)。

你可能感兴趣的:(语义分割Swin Transformer)