密集预测的视觉Transformer:Vision Transformers for Dense Prediction

Vision Transformers for Dense Prediction

  • 论文地址:
  • 代码地址:
  • 主要工作:
  • 具体实现:
    • Transformer encoder:
    • Convolutional decoder:
  • 实验结果:

论文地址:

https://arxiv.org/abs/2103.13413

代码地址:

https://github.com/isl-org/DPT

主要工作:

我们引入了密集的视觉Transformer,这是一种利用视觉Transformer代替卷积网络作为密集的预测任务的主干的架构。我们将来自视觉Transformer不同阶段的token组装成不同分辨率的类图像表示,并使用卷积解码器逐步将它们组合成全分辨率的预测。Transformer主干以一个恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域。与全卷积网络相比,这些特性允许密集的视觉Transfo

你可能感兴趣的:(深度学习-计算机视觉,transformer,深度学习,pytorch,计算机视觉,图像分类)