AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)
最近看transformer用于CV比较热门,特意去进行了解,这里用分类的一篇文章进行讲解。NLP中的transformer和代码讲解参考我另一篇文章。论文链接:ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE一.思想其实核心问题就是考虑如何把图像数据H*W*C,序列化成一个一个词那种结构,自然就想到将图片crop成一个