SETR

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

https://arxiv.org/abs/2012.15840

https://fudan-zvg.github.io/SETR/

最新的语义分割方法采用了完全卷积网络(FCN)和编解码结构。编码器逐渐降低空间分辨率,学习更抽象/语义的视觉概念和更大的感受野。由于上下文建模是分割的关键,最近的研究集中在通过扩张/萎缩卷积或插入注意模块来增加感受野。然而,基于编码器-解码器的FCN架构保持不变。在本文中,我们的目的是提供一个替代的角度,将语义分割作为一个序列到序列的预测任务。具体来说,我们部署了一个纯变压器(即,没有卷积和分辨率降低)将图像编码为一系列的补丁。通过在转换器的每一层建立全局上下文模型,该编码器可以与一个简单的解码器相结合,提供一个强大的分段模型,称为分段转换器(segmentation transformer,SETR)。大量实验表明,SETR在ADE20K(50.28%mIoU)、Pascal上下文(55.83%mIoU)和城市景观上取得了新的水平。特别是在竞争激烈的ADE20K测试服务器排行榜上,我们取得了第一名(44.42%mIoU)的位置

笔者注:这个论文说的序列到序列,并不是pixel to pixel,而是patch to patch,是将图像变成16个字,再经过一层一层的变换器,再经过decoder

你可能感兴趣的:(SETR)