CVPR2022《Mobile-Former: Bridging MobileNet and Transformer》

CVPR2022《Mobile-Former: Bridging MobileNet and Transformer》_第1张图片
论文链接:https://arxiv.org/pdf/2108.05895.pdf
代码链接:无

1. 动机

vision transformer (ViT)可以很好地建模全局信息,并实现与CNN相比显著的性能提升。但是,当计算资源受限时,ViT的增益减少。而针对计算成本方面的挑战,MobileNet和它的变体仍然占据着主导地位,因为它们通过分解深度和点卷积在局部处理过滤器中的效率很高。这就引出一个问题,**能否有这样一个高效的网络,它可以有效地编码局部处理和全局交互?**虽然之前已有工作结合卷积和视觉Transformer的优势并获得了不错的性能,但是这些工作几乎都是将卷积和视觉Transformer进行串联!并联的性能如何呢?

2. 贡献

  • 本文将设计模式由串联式转变为并联式,并提出一种新的网络,将MobileNet与Transformer并联,并在两者之间架设双向桥接,该网络命名为Mobile-Former,其中Mobil

你可能感兴趣的:(Transformer,计算机视觉,transformer,深度学习)