机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)

ICLR 2021

0 前言

说到图像处理,一般想到的就是CNN/CNN的变体

机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客

机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)_第1张图片

 

 

。ViT的想法是利用Transformer机制来替换CNN机制,将Transformer运用到图像分类中。

 机器学习笔记:Transformer_UQI-LIUWJ的博客-CSDN博客

1 图像转成句子(图片 token化)

        将图像分割成小块(image patch),并将这些块转化为序列,作为Transformer的输入。

        图像块(image patches)相当于NLP任务中的单词(token)来做处理。以有监督的方式训练图像分类模型。

  • 比如一张原始图像x \in R^{H*W*C},分辨率是H×W,通道数是C
  • 我们将其分割成P×P的patch组成的序列x' \in R^{\frac{H\times W}{P^2}\times (P\times P \times C)}

2 整体流程

和Transformer的encoder流程差不多

 机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)_第2张图片

 

你可能感兴趣的:(论文笔记,机器学习,深度学习,人工智能)