An image is worth 16 x 16 words: transformers for image recognition at a scale

(可能)是第一次大规模的采用纯transformer做cv任务的文章,验证了transformer在cv领域的有效性,大大的挖坑之作。

ViT的网络结构其实很简单,就是一个普通的transformer结构,只不过把图像分成了16 x 16个patch,加上位置编码作为序列化数据输入transformer中。但是技术细节比较多,实验也做的非常充分,是一篇需要仔细阅读细节部分的文章。



实验结果其实很有意思,ViT跟普通的CNN比较性能,利用同样规模的数据集作预训练,结果是不一样的,小规模数据集下,如ImageNet-1K,resnet表现远优于ViT,但是增大数据集规模,ViT的性能增长幅度比resnet更大,当采用最大的JFT数据集时,ViT性能就会超过resnet了,可见之前其性能远没有达到饱和。


你可能感兴趣的:(An image is worth 16 x 16 words: transformers for image recognition at a scale)