Vision Transformer(1):Self-attention Multi-head Self-attention

论文:Transformer: Attention Is All You Need
Vision Transformer(1):Self-attention Multi-head Self-attention_第1张图片

Transformer它的提出最开始是针对NLP领域的,在次之前大家主要用的是RNN,LSTM这类时序网络。像RNN这类网络其实它是有些问题的,首先它的记忆的长度是有限的,特别像RNN它的记忆长度就比较短,所以后面就有提出LSTM。但是他们还有另外一个问题就是无法并行化,也就是说我们必须先计算 t 0 t_0 t

你可能感兴趣的:(图像分类,面试,transformer,深度学习,自然语言处理)