Vision Transformer的Pytorch源码各模块实现

其实看ViT网络代码主要是学会最基础的transformer模型搭建,是CV从业者必须要走一段路。在明白transformer原理之后(具体参考我之前的两篇博文:CV领域Transformer之Self-Attention原生理解和Transformer-Encoder & Decoder细节详解(以DETR为例),搭建ViT可以说是信手拈来。整个ViT网络无非就是卷积层和Multi-Head Self-attention的搭积木,如下所示:

Vision Transformer的Pytorch源码各模块实现_第1张图片

  • ViT网络的输入图像尺寸必须为固定尺寸,否则需要自己提前resize好。
  • Class Token和Position Embeddin

你可能感兴趣的:(视觉检测图像分割干货,transformer,ViT,源码)