关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)

A Novel Transformer based Semantic Segmentation Scheme for Fine-Resolution Remote Sensing Images(语义分割任务)
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第1张图片
Self-Supervised Learning with Swin Transformers(模型简称:MoBY,使用了对比学习)
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第2张图片
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation(医疗图像语义分割)

关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第3张图片
Rethinking Training from Scratch for Object Detection(看不懂)

Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第4张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第5张图片
DS-TransUNet: Dual Swin Transformer U-Net for Medical Image Segmentation(医疗图像的语义分割)
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第6张图片关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第7张图片
Long-Short Temporal Contrastive Learning of Video Transformers
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第8张图片
Video Swin Transformer
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第9张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第10张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第11张图片
PVTv2: Improved Baselines with Pyramid Vision Transformer(Pyramid:金字塔)
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第12张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第13张图片
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第14张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第15张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第16张图片
What Makes for Hierarchical Vision Transformer?
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第17张图片

关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第18张图片

关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第19张图片

CYCLEMLP: A MLP-LIKE ARCHITECTURE FOR DENSE PREDICTION
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第20张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第21张图片
Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第22张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第23张图片

ConvNets vs. Transformers: Whose Visual Representations are More Transferable?

Vision transformers have attracted much attention from computer vision researchers as they are not restricted to the spatial inductive bias of ConvNets. However, although Transformer-based backbones have achieved much progress on ImageNet classification, it is still unclear whether the learned representations are as transferable as or even more transferable than ConvNets’ features. To address this point, we systematically investigate the transfer learning ability of ConvNets and vision transformers in 15 single-task and multi-task performance evaluations. Given the strong correlation between the performance of pretrained models and transfer learning, we include 2 residual ConvNets (i.e., R-101×3 and R-152×4) and 3 Transformer based visual backbones (i.e., ViT-B, ViT-L and Swin-B), which have close error rates on ImageNet, that indicate similar transfer learning performance on downstream datasets. We observe consistent advantages of Transformer-based backbones on 13 downstream tasks (out of 15), including but not limited to fine-grained classification, scene recognition (classification, segmentation and depth estimation), open-domain classification, face recognition, etc. More specifically, we find that two ViT models heavily rely on whole network fine-tuning to achieve performance gains while Swin Transformer does not have such a requirement. Moreover, vision transformers behave more robustly in multi-task learning, i.e., bringing more improvements when managing mutually beneficial tasks and reducing performance losses when tackling irrelevant tasks. We hope our discoveries can facilitate the exploration and exploitation of vision transformers in the future.
视觉变压器因其不局限于卷积神经网络的空间感应偏置而受到计算机视觉研究者的广泛关注。然而,尽管基于transformer的主干网在ImageNet分类方面取得了很大的进展,但我们仍然不清楚学习后的表示是否和卷积网络的特征一样可转移,甚至比卷积网络的特征更可转移。为了解决这一问题,我们在15个单任务和多任务性能评估中系统地研究了卷积神经网络和视觉变压器的迁移学习能力。考虑到预训练模型的性能与迁移学习之间的强相关性,我们包括2个残差ConvNets (R-101×3和R-152×4)和3个基于Transformer的视觉主干(vi - b、vi - l和swi - b),它们在ImageNet上的错误率接近,表明在下游数据集上的迁移学习性能类似。我们观察到基于transformer的骨干在13个下游任务(15个任务中)上具有一致的优势,包括但不限于细粒度分类、场景识别(分类、分割和深度估计)、开放域分类、人脸识别等。更具体地说,我们发现两个ViT模型严重依赖于整个网络的微调来实现性能增益,而Swin Transformer没有这样的需求。此外,视觉变压器在多任务学习中表现得更加稳健,即在管理互惠任务时带来更多的改进,在处理无关任务时减少性能损失。我们希望我们的发现可以促进未来视觉变压器的探索和开发。
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第24张图片
SwinIR: Image Restoration Using Swin Transformer(重点是残差链接)
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第25张图片
Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第26张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第27张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第28张图片
Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale Transformer

关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第29张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第30张图片
3rd Place Scheme on Instance Segmentation Track of ICCV 2021 VIPriors Challenges
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第31张图片
VIDT: AN EFFICIENT AND EFFECTIVE FULLY TRANSFORMER-BASED OBJECT DETECTOR
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第32张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第33张图片
Satellite Image Semantic Segmentation(卫星图像语义分割)(手稿)
COVID-19 Detection in Chest X-ray Images Using Swin Transformer and Transformer in Transformer
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第34张图片
HRFormer: High-Resolution Transformer for Dense Prediction
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第35张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第36张图片
Vis-TOP: Visual Transformer Overlay Processor
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第37张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第38张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第39张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第40张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第41张图片
Hepatic vessel segmentation based on 3D swin-transformer with inductive biased multi-head self-attention
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第42张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第43张图片
Transformer-based Image Compression(图像压缩)
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第44张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第45张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第46张图片
Swin Transformer V2: Scaling Up Capacity and Resolution
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第47张图片
Vision Transformer with Deformable Attention
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第48张图片
Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第49张图片

SWIN-POSE: SWIN TRANSFORMER BASED HUMAN POSE ESTIMATION

关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第50张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第51张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第52张图片
关于大家对Swin Transformer的魔改论文模型记录(只关注Swin是如何使用的)_第53张图片

你可能感兴趣的:(深度学习)