品论文:VISION TRANSFORMER (VIT)

今天上午看了个论文,每当遇到全英文论文的时候,就会发现自己的英文水平属实是太一般,但是看完这篇论文确实是感触良多!!!

  • 论文标题:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》

  • 论文作者:Google Research, Brain Team

  • 论文发布时间:2020年11月22日

  • 论文摘要概述:
    品论文:VISION TRANSFORMER (VIT)_第1张图片

  • 作者在摘要中表达的信心意思就是:transformer架构目前已经在自然语言处理任务中广泛应用且效果显著,但是在视觉领域目前应用不多。作者论文中所提出的《Vision Transformer (ViT)》在ImageNet, CIFAR-100, VTAB等数据集中取得了不错的成绩,对比表名transformer架构也可以在视觉领域取得优异成绩,且与先进的卷积网络相比,训练所需的计算资源大大减少。

1. 介绍部分

品论文:VISION TRANSFORMER (VIT)_第2张图片
品论文:VISION TRANSFORMER (VIT)_第3张图片

  • 核心就是介绍VIT模型在多个数据集上取得的成绩,例如在ImageNet上的正确率为88.55%,在ImageNet- real上为90.72%,在CIFAR-100上为94.55%,77.63%在19个任务的VTAB套件中。

code下载地址

Fine-tuning code and pre-trained models are available at https://github.com/google-research/vision_transformer

2. 相关工作部分

品论文:VISION TRANSFORMER (VIT)_第4张图片

3. 模型架构

品论文:VISION TRANSFORMER (VIT)_第5张图片

在VIT模型的设计中,尽量保持了transformer架构的原汁原味

VIT模型架构

品论文:VISION TRANSFORMER (VIT)_第6张图片

  • 在接下来论文阐述的相关数据上,核心意思就是,将高分辨率的图像,分为N个patch图像块,然后Flatten拉伸成为1维向量,可以理解为reshape成类文本数据,例如将3x3的图像reshape成1x9形式,然后在进入embedding层之后进行patch embedding(个人理解此处类似于NLP中的token embedding操作),Position embedding主要是根据各个patch块在原始图像中的位置,对预训练的位置嵌入进行2D插值来记录对应的时序关系;之后数据被送入transformer Encoder结构和MLP head部分最终得到对应分类的概率分布;

4. 实验数据

品论文:VISION TRANSFORMER (VIT)_第7张图片

在该实验数据中,作者试验了Layers层数包括12/24/32,hidden_size包括:768/1024/1280,多头注意力头数包括:12头和16头,参数量依次为:86M/307M/632M。
在实验结果上,均取得不俗表现;

5. 大数据集表现明显好于小数据集

品论文:VISION TRANSFORMER (VIT)_第8张图片

  • 时间关系,今天就写到这吧,看完这篇VIT论文,感触良多,transformer既然也可以在视觉领域取得不俗成绩,未来多种模态之间的融合带来无限可能。
  • 个人断言:未来人工智能在多模态领域会有新的突破,敬请期待!!!

你可能感兴趣的:(论文,VIT)