VIT论文解读

1.VIT论文

VIT论文解读_第1张图片

2.论文结构

3.论文摘要

  • Transformer在NLP中已经成为经典
  • CV中,Attention机制只是作为一个补充在使用
  • 使用纯Transformer结构就可以在图像分类任务上取得不错的结果
  • 在足够大的数据集上训练后,ViT可以拿到和CNN的SOTA不相上下的结果

4.论文精读

4.1 ViT结构

4.1.1 总览

VIT论文解读_第2张图片

  • 对transformer做了最小的改动
  • 把图像切分重拍,当做输入
  • 实际中只使用了Encoder

4.1.2 AttentionVIT论文解读_第3张图片

Attention的直觉是:并不用完全编码,一个翻译只与有限的几个词有关

Attention的本质是:加权平均,实际上是相似度计算

VIT论文解读_第4张图片
VIT论文解读_第5张图片

4.1.3MultiHead—Attention

VIT论文解读_第6张图片

本质:input的线性变换

计算:矩阵乘法

实现:nn.linear

MultiHead Attention:有多个Wq,Wk,Wv,将上述操作重复多次connect一起
VIT论文解读_第7张图片

4.2输入端适配

直接将图片切分,按照编号输入网络。

  • 为什么有patch 0?

    如果只有原始输出的9个向量,用哪个向量来分类都不好,全用来分类计算量很大,加一个patch 0来整合信息。

4.3 位置编码

图像切分重排后失去了位置信息,并且Transformer的内部运算是空间信息无关的,所以需要把位置信息编码重新传进网络

4.4实验设置及结果分析

结果分析:

  • ViT的性能需要大量的数据

  • Attention距离和网络的层数的关系

VIT论文解读_第8张图片

5.论文总结

关键点

  • 一个用Transformer做分类的Backbone
  • 模型结构 Transform Encoder
  • MultiHead Attention的意义及计算过程

创新点

  • 纯Transformer做分类任务
  • 简单的输入端适配即可使用
  • 做了大量实验证明纯Transformer做CV的可能性

你可能感兴趣的:(计算机视觉,transformer,计算机视觉,人工智能)