Vision Transformer (ViT):将Transformer带入计算机视觉的革命性尝试(代码实现)
VisionTransformer(ViT):将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者,如果你对自然语言处理(NLP)领域的Transformer架构了如指掌,那么你一定不会对它在序列建模中的强大能力感到陌生。然而,2021年由GoogleResearch团队在ICLR上发表的论文《ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIM