学习笔记 | Vision Transformer(ViT)

论文名称: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
论文下载链接:https://arxiv.org/abs/2010.11929
原论文对应源码:https://github.com/google-research/vision_transformer

Vision Transformer模型详解

下图是原论文中给出的关于Vision Transformer(ViT)的模型框架。简单而言,模型由三个模块组成:

  • Linear Projection of Flattened Patches(Embedding层)
  • Transformer Encoder(图右侧有给出更加详细的结构)
  • MLP Head(最终用于分类的层结构)

学习笔记 | Vision Transformer(ViT)_第1张图片学习笔记 | Vision Transformer(ViT)_第2张图片


参考文章:Vision Transformer详解_太阳花的小绿豆的博客-CSDN博客

你可能感兴趣的:(transformer,深度学习,人工智能,计算机视觉,机器学习)