Why Transformer works

在近年来计算机视觉领域中,transformer似乎全面超越CNN,在各种任务上SotA,特别是swin[1]出来以后。然而有一个问题值得我们去思考,transformer的优势在哪里?为什么能够work?transformer刚在CV领域火起来以后,大书特书其中的多头注意力机制(MSA),我们似乎也同意了,似乎以cnn为代表的局部注意力机制在全局注意力机制的衬托下愈发显得羸弱与不堪。MLP(在cv领域)的死灰复燃[2]似乎也强调了这一点。

然而这是真相吗?

在后续的研究中发现,将MSA换成MLP、傅里叶变换效果也不错,甚至颜水成[3]团队发现即使将Transformer中的MSA换成pooling,精度也比cnn高;王井东团队[4]验证local Transformer attention与 inhomogeneous dynamic depthwise conv等价。那么究竟是什么造就了Transformer的成功呢?

近日(2022年1月12日),Facebook AI Research 一步步将resnet50向transformer演变[5],发现transformer中的每个小模块都对精度有小幅度提升,最终联合促成了transformer的高精度。并且该团队还通过实验表明,在使用了这些小trick以后,CNN精度完爆transformer。在相近参数量的前提下,在分类、检测、分割任务上全面超越swin。

cnn并未过时,transformer不是万能药,但是transformer中的各种设计技巧值得我们学习。

参考文献:

  1. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
  2. MLP is all you need
  3. MetaFormer is Actually What You Need for Vision
  4.  Demystifying local vision transformer: Sparse connectivity, weight sharing, and dynamic weight
  5. A ConvNet for the 2020s

你可能感兴趣的:(transformer,深度学习,人工智能)