关于transformer是如何处理图像的

深入剖析transformer如何处理图像

  • 1、线性投影
  • 2、位置编码
  • 3、总结

1、线性投影

为了开始理解视觉Trans如何处理图像数据,我们分析了它的内部表示。视觉Trans的第一层线性地将平坦的小块投影到一个低维空间(Eq. 1)。图7(左)显示了已学习的嵌入滤波器的顶部主成分。这些成分类似于可信的基函数,用于对每个斑块内的精细结构进行低维表示。

2、位置编码

投影完成后,将学习到的位置嵌入添加到patch表示中。图7(中间)显示,模型学习了在位置嵌入相似度下对图像内的距离进行编码,即越近的patch的位置嵌入越相似。进一步,出现行-列结构;同一行/列中的贴片具有类似的嵌入。最后,对于较大的网格,正弦结构有时是显而易见的(附录D)。位置嵌入学习表示二维图像拓扑结构解释了为什么手工制作的2D感知嵌入变体不能产生改进。

3、总结

探讨了trans在图像识别中的直接应用。不同于以往在计算机视觉中使用自我注意的工作,我们没有引入任何图像特定的归纳偏见到架构中。相反,我们将图像解释为一系列patch,并使用NLP中使用的标准trans编码器来处理它。这种简单但可扩展的策略,在与大型数据集的预训练相结合时,效果惊人地好。因此,视觉trans在许多图像分类数据集上匹配或超过了最先进的水平,同时可以相对便宜地进行预训练。

【未完待续…】

你可能感兴趣的:(论文阅读,计算机视觉,深度学习)