Transformer架构 VIT

VIT 简单来说就说在视觉中怎么去做transfomer

transfomer的输入得是一个序列,我们用transfomer做视觉的时候不能把一整张图片传进去,而是考虑把一张图片分成多个小块,比如下图把图片分成九个小块,按照从左到右,从上到下分别标称序号1,2,3,4,5,6,7,8,9,每个小块还是图片,然后通过Embedding转换成向量,然后通过Linear Projection Flattened Patches全连接对这些向量做一个整合。因为我们把分成了9小块图像,这些图像之间也是有位置顺序的,这里也和bert一样加上位置编码
Transformer架构 VIT_第1张图片

CNN最大的问题

CNN中的“格局和眼界”就是感受野。CNN中想要获得大的感受野(全局的信息)就必须堆叠很多层卷积,问题就说不断卷积+池化的操作有点麻烦还不一定好。Transformer的架构感受野这件事情做的比较好,Transformer根本不需要堆叠,就可以直接获得全局信息。但是Transformer训练数据得到位才行(必须得数据量大)。
下图是vit的感受野,浅层就能捕获较大范围信息,全局信息丰富,更好理解整个图像
Transformer架构 VIT_第2张图片

位置编码

Embedded一般有三种形式,不加位置编码,加上行位置编码,加上行列位置编码。我们选取最好的一种。
结论是:编码有用,但是怎么编码影响不大,干脆用简单的
Transformer架构 VIT_第3张图片

TNT (Transformer in Transformer)

VIT中只对针对patch进行建模,忽略了其中更小的细节
TNT比VIT的效果要比VIT强一些,做的更细了,主要就是batch做的更细一些,又嵌套了一层Transformer

TNT的基础组成

外部Transformer 处理的序列 和 VIT一样
内部Transformer 重组成多个超像素(4个像素点) 就说按照四个像素点把batch再拆分成一个个小块

TNT的基本计算

内部Transformer 重组成新的向量,新向量再通过全连接改变输出特征大小,内部组合后的向量与外部Transformer patch编码大小相同,最后与原始输入patch向量进行相加

TNT位置编码实验

内外兼修,都加编码效果最好
Transformer架构 VIT_第4张图片

你可能感兴趣的:(#,Transformer,python,深度学习,transformer,人工智能)