【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

哈喽,大家好!欢迎大家点进这个链接,为什么要选择读这篇论文呢,一个原因,这是一篇非常经典的论文,提出一种将Transformer应用在计算机视觉的方法,而且现如今很多很多的基于这篇文章的工作在不断创新发展,有一种奠基石的感觉,而且模型跑起来非常方便。当然这这是一个原因,还有另一个原因,就是关于这篇论文的讲解非常多,所以对我来说,可以参考着来阅读,这个吸引力真的太大了,嘿嘿一笑。
【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第1张图片

如果这篇文章讲的不好的话,还希望大家多多包涵。
那我们就开始吧!

【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第2张图片
首先让我们来了解一些背景。
在计算机视觉领域,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组成部分,作者认为这种对卷积网络的依赖是不必须的,VIT可以基于图像patch序列,使用纯Transformer架构,并证明可以更好地执行图像分类任务。(哇哦,这似曾相识的开场白)
接下来,让我们来回顾一下关于Transformer的优点和缺点。
Transformer的优点
1、具有优秀的运算效率和扩展性
2、可以通过大量数据做预训练并微调在其他数据集来减少运算资源
3、Attention(注意力机制)

Transformer的缺点
1、需要大量训练数据
2、缺乏像CNN固有的归纳偏差(inductive bias)如平移不变性(translation equivariance)、局部性(locality)
3、训练数据量不足时会无法达到很好的泛化能力
接下来,让我们来看看VIT是如何解决把图片送入Transformer这个难题的呢。
【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第3张图片

【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第4张图片

输入图像大小HWC,将其分割成N个PPC的patch,基于一个可训练的线性投影将每个patch投影到D维,最终输入大小为ND。
与Bert的【class】token类似,VIT在迁入的patch序列放一个可学习的嵌入
作为类别的token,在该位置的输出后接MLP head来做分类。
位置嵌入仍然使用一维位置嵌入。
基于模型大小VIT模型有三个变体
【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第5张图片

将模型在ImageNet、ImageNet-21k和JFT-300M数据集上进行预训练
接下来是一些VIT与SOTA的实验对比
【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第6张图片【菜鸡读论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE_第7张图片

你可能感兴趣的:(菜鸡读论文,深度学习,计算机视觉,人工智能)