CV领域Transformer之Self-Attention浅薄理解

CNN和Self-Attention的比较理解:

  • 对于CNN而言,越深的网络关注的区域越大,因为其每一层网络都相当于不断的整合之前的信息。以3×3卷积为例,如下图所示:蓝色方框表示能看到原始图像多大的区域。黄色方框表示原始图像。

CV领域Transformer之Self-Attention浅薄理解_第1张图片

  • CNN每一层都必须做的非常好,这样结果才能好
  • Transformer相比于CNN,只需要一层就可以达到很深的CNN才能考虑到的全局信息。一层顶CNN十几层。
  • CV不像NLP每一个句子有单词可以做成一个个小的token,因此需要把其特征做成N等份,将每一等份拉长为一个向量,之后通过Transformer对每个向量进行重构,让每个token知道它上面是什么,下面是什么,远处是什么···
  • Transformer对比CNN结构,缺少一定的平移不变性和局部感知性,因此在数据量不够大时,很难达到CNN的同等效果;也就是说在中规模数据集下效果会比CNN的低上几个百分点。当

你可能感兴趣的:(视觉检测图像分割干货,transformer,深度学习,self-attention,CV)