复旦大学提出SETR:基于Transformer的语义分割

本文将语义分割视为序列到序列的预测任务,在ADE20K上排名第一!表现SOTA!性能优于OCNet、GCNet等和Axial-DeepLab-XL网络,代码即将开源!

PS:目前看来,目标检测、实例分割、语义分割主流CV方向均被Transformer"攻克"了

注:文末附【语义分割】和【Transformer】交流群

SETR

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

复旦大学提出SETR:基于Transformer的语义分割_第1张图片

  • 作者单位:复旦, 牛津大学, 萨里大学, 腾讯优图, Facebook
  • 主页:https://fudan-zvg.github.io/SETR/
  • 代码:https://github.com/fudan-zvg/SETR
  • 论文:https://arxiv.org/abs/2012.15840

最新的语义分割方法采用具有编码器-解码器体系结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率,并通过更大的感受野学习更多的抽象/语义视觉概念。由于上下文建模对于分割至关重要,因此最新的工作集中在通过扩张/空洞卷积或插入注意力模块来增加感受野。但是,基于编码器-解码器的FCN体系结构保持不变。

在本文中,我们旨在通过将语义分割视为序列到序列的预测任务来提供替代视角。具体来说,我们部署一个纯 transformer(即,不进行卷积和分辨率降低)将图像编码为一系列patch。通过在 transformer的每一层中建模全局上下文,此编码器可以与简单的解码器组合以提供功能强大的分割模型,称为SEgmentation TRansformer(SETR)。

复旦大学提出SETR:基于Transformer的语义分割_第2张图片

部分知识细节

实验结果

大量实验表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上取得了新的技术水平。


复旦大学提出SETR:基于Transformer的语义分割_第3张图片
在Cityscapes上取得了竞争性结果。特别是,我们在竞争激烈的ADE20K测试服务器排行榜中排名第一(mIoU为44.42%)。
复旦大学提出SETR:基于Transformer的语义分割_第4张图片

语义分割交流群

已建立CVer-语义分割微信交流群!想要进语义分割学习交流群的同学,可以直接加微信号:CVer6666。加的时候备注一下:语义分割+学校+昵称,即可。然后就可以拉你进群了。

Transformer交流群

建了CVer-Transformer交流群!想要进分割学习交流群的同学,可以直接加微信号:CVer6666。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

更多优质CV内容,请关注CVer微信公众号,扫码下方二维码即可关注!

复旦大学提出SETR:基于Transformer的语义分割_第5张图片

你可能感兴趣的:(Transformer,语义分割,计算机视觉论文速递,人工智能,深度学习,机器学习,计算机视觉,自动驾驶)