【Conformer】3.Conformer: Local Features Coupling Global Representations for Visual Recognition

论文题目:Conformer:局部特征耦合全局表示的视觉识别  

论文地址:https://arxiv.org/abs/2105.03889

论文代码:https://github.com/pengzhiliang/Conformer

摘要:在卷积神经网络(CNN)中,卷积操作擅长提取局部特征,但难以捕获全局表示。在Visual Transformer中,级联自注意力模块可以捕获长距离特征依赖关系,但不幸的是会破坏局部特征细节。在本文中,我们提出了一种称为 Conformer 的混合网络结构,以利用卷积运算和自注意力机制来增强表征学习。Conformer 源于特征耦合单元(FCU),它以交互方式融合不同分辨率下的局部特征和全局表示。Conformer 采用并行结构,以便最大程度地保留局部特征和全局表示。实验表明,在参数复杂度相当的情况下,Conformer 在 ImageNet 上的性能比Visual Transformer (DeiT-B) 高 2.3%。在 MSCOCO 上,它在目标检测和实例分割方面的性能分别比 ResNet-101 高 3.7% 和 3.6%,显示出作为通用骨干

你可能感兴趣的:(Transformer,深度学习,计算机视觉,人工智能)