ViT (Vision Transformer) ---- SimpleRNN + Self-Attention
首先attention第一次是在2015年应用在Seq2Seq模型上的,该模型有两个网络一个是Encoder,一个是decoder,后来研究者们发现,attention不仅仅可以应用到Seq2Seq模型上,还可以应用到所有的RNN模型上,该研究是在2016年发表的一篇文章,比attention晚一年(Cheng,Dong,&Lapata.LongShort-TermMemory-Networksf