论文笔记:Vision Transformers for Dense Prediction

中文标题: 密集预测的视觉Transformers

创新点

  • DPT是一种密集预测架构,它基于编码器-解码器的设计,利用一个Transformer作为编码器的基本模块。具体来说,我们使用最近提出的ViT作为主干架构。
  • 我们将ViT提供的tokens表示重新组合成不同分辨率的类图像特征表示,并使用卷积解码器逐步将特征表示组合到最终的密集预测中。
  • 与全卷积网络不同,视觉Transformer主干在计算出初始图像嵌入后放弃了显式的降采样操作,并在所有处理阶段保持了恒定维数的表示。此外,它在每个阶段都有一个全球性的接受域。

算法介绍

网络结构

论文笔记:Vision Transformers for Dense Prediction_第1张图片

Transformer 编码器

  • 在高层次,ViT将图像转换为词袋表示的Patches。这些Patches作为“单词”独立编码到特征空间,我们将这些“单词”作为tokens,使用一系列多头自注意力机制来与其他的tokens进行联系。
  • 使用Resnet50作为Embedding编码器。
  • 由于Transformer是设定到集(set-to-set)函数,所以不保留tokens的空间位置信息。因此可以通过合并enbeddings补充这部分信息。
  • 见结构图左。

卷积解码器

  • 提出的解码器将一组tokens组装成不同分辨率的图像特征表示。特征逐步被融合进最终的密集预测中。
  • 提出了一个简单三层Reassemble操作从tokens恢复到图像表示。
    在这里插入图片描述
  • s是输出特征与输入图像的尺寸比
  • 见图中
  1. 首先将 N p + 1 N_p + 1 Np+1个tokens 按照图像排列到 N p N_p Np ,但是 read out token虽然在密集预测任务中没有明确的作用,但潜在地捕捉、区分全局信息,因此设计了三种不同地方法:无视,加在所有的tokens上,使用MLP结合到所有tokens上。(从后面的Abltion study 可知MLP方法和Ignore方法没有明显优略)
    在这里插入图片描述
  2. 然后我们使用一个空间连接操作,组合得到特征图:在这里插入图片描述
  3. 使用空间重采样层对特征进行进一步的特征提取。(1x1卷积,3x3卷积或反卷积)
    在这里插入图片描述
  • 最后我们以较低的分辨率的特征来融合来自Transformer深层的特征,而来自浅层的特征则以较高的分辨率融合。
  • 如果使用ViT-Hybrid模型,则分别使用Resnet以及ViT的特征在Decoder进行融合。

实验介绍

  • 文章把DPT应用在:单目深度估计以及语义分割任务中。

单目深度估计

  • 论文中认为Transformer只有在大量数据上进行训练效果才会好,因此可以在不同数据集间迁移,达到很好的训练效果。

参考文献

[1] Ranftl R, Bochkovskiy A, Koltun V. Vision transformers for dense prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 12179-12188.

你可能感兴趣的:(深度估计,Backbone,论文阅读,深度学习,计算机视觉,Transformer,单目深度估计)