Transformer最初提出是针对NLP领域的,并且在NLP领域大获成功。这篇论文也是受到其启发,尝试将Transformer应用到CV领域。关于Transformer的部分理论之前的博文中有讲,链接,这里不在赘述。通过这篇文章的实验,给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的,而且效果还挺惊人。
1、Transformer、Self-Attention、Multi-Head Attention
博文:https://blog.csdn.net/qq_37541097/article/details/117691873
视频:https://www.bilibili.com/video/BV15v411W78M/
2、ViT(Vision Transformer)
博客地址:https://blog.csdn.net/qq_37541097/article/details/118242600
代码解析:https://blog.csdn.net/fulva/article/details/121045938
3、Swin-Transformer
视频:https://www.bilibili.com/video/BV1pL4y1v7jC/
博文:https://blog.csdn.net/qq_37541097/article/details/121119988
学习代码的步骤
README.md
将代码跑通 —— 跑通只是第一步而不是最后一步