【OUC深度学习入门】第6周学习记录:Vision Transformer & Swin Transformer & ConvNeXt
Part1VisionTransformer1网络结构ViT模型不仅适用于NLP领域,在CV领域也能取得不错的效果。在原论文中,作者对比了三种模型,一种是ViT,即“纯”Transformer模型;一种是ResNet网络;另一种是Hybrid模型,它是将传统CNN和Transformer混合起来的模型。最终发现,当迭代次数多时,ViT模型的精度会超过混合模型。ViT(VisionTransform