【论文笔记】Vision Transformers for Dense Prediction

声明

不定期更新自己精读的论文,通俗易懂,初级小白也可以理解

涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin

【论文笔记】Vision Transformers for Dense Prediction_第1张图片论文题目:Vision Transformers for Dense Prediction

论文链接:https://arxiv.org/abs/2103.13413v1

论文代码:https://github.com/isl-org/DPT

发表时间:2021年3月

创新点

1、提出了基于 ViT 为主干架构的 Vision Transformer - DPT

Abstract

我们引入了密集视觉 Transformer,一种利用 Vision Transformer 代替卷积网络作为密集预测任务的骨干的架构。我们将来自 Vision Transformer 各个阶段的令牌组装成各种分辨率的类似图像的表示,并使用卷积解码器将它们逐步组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些属性允许密集视觉 Transformer 提供更细粒度和更全局连贯的预测。

我们的实验表明,这种架构对密集预测任务产生了显着的改进,尤其是在有大量训练数据可用的情况下。对于单目深度估计,我们观察到与最先进的全卷积网络相比,相对性能提高了高达 28%。 当应用于语义分割时,密集视觉转换器以 49.02% 的 mIoU 在 ADE20K 上创造了新的技术水平。

我们进一步表明,该架构可以在较小的数据集上进行微调,例如 NYUv2、KITTI 和 Pascal Context,它还设置了新的状态。 

Method

【论文笔记】Vision Transformers for Dense Prediction_第2张图片

架构概述

首先,输入图像通过提取非重叠块然后对其扁平表示(DPT-Base 和 DPT-Large)进行线性投影或通过应用 ResNet-50 特征提取器(DPT-Hybrid)转换为标记(橙色);

其次,图像嵌入通过位置嵌入增强,并添加了与补丁无关的读出标记(红色)。令牌通过多个 Transformer 阶段。 作者将来自不同阶段的令牌重新组合成具有多种分辨率(绿色)的类似图像的表示;

最后,融合模块(紫色)逐步融合和上采样表示以生成细粒度预测。

Reassemble

【论文笔记】Vision Transformers for Dense Prediction_第3张图片

重新组装操作,令牌被组装成特征图。

首先,将 Np + 1(位置编码,红色) 个标记映射到一组 Np 标记,这些标记可以进行空间连接成类似图像的表示;

然后,使用 1*1 卷积表示投影操作;

最后,在四个不同阶段和四种不同分辨率重新组合特征。

Fusion

【论文笔记】Vision Transformers for Dense Prediction_第4张图片

 融合块使用残差卷积单元组合特征并对特征图进行上采样。

Experiments

实验目标:与单目深度估计的最新技术进行比较

实验结果:DPT-Large 具有明显优势

【论文笔记】Vision Transformers for Dense Prediction_第5张图片

你可能感兴趣的:(Vision,Transformer,论文笔记,深度学习,transformer,计算机视觉,神经网络,人工智能)