对 Vision Transformers 及其基于 CNN-Transformer 的变体的综述
AsurveyoftheVisionTransformersanditsCNN-TransformerbasedVariants摘要1、介绍2、vit的基本概念2.1patch嵌入2.2位置嵌入2.2.1绝对位置嵌入(APE)2.2.2相对位置嵌入(RPE)2.2.3卷积位置嵌入(CPE)2.3注意力机制2.3.1多头自我注意(MSA)2.4Transformer层2.4.1Feed-forwar