EfficientViT: Enhanced Linear Attention forHigh-Resolution Low-Computation Visual Recognition
目录Abstract1Introduction3Method3.2EffificientViT4Experiments4.5AnalysisandDiscussionAbstract在针对高分辨率移动视觉应用时,ViT不如卷积神经网络(CNNs)。现有的方法(如Swin、PVT)限制了局部窗口内的softmaxattention,或降低键/值张量的分辨率,以降低成本,这牺牲了ViT在全局特征提取方