Transformer 在图像中的运用(一)VIT(Transformers for Image Recognition at Scale)论文及代码解读
接着前面的文章说到的transformer,本篇将要介绍在图像中如何将transformer运用到图片分类中去的。我们知道CNN具有平移不变形,但是transformer基于self-attentation可以获得long-range信息(更大的感受野),但是CNN需要更多深层的Conv-layers来不断增大感受野。这里将给出论文地址及代码地址:论文:AnImageisWorth16x16Wor