深度学习之NLP学习笔记(七)— Transformer复杂度分析

复杂度(Complexity)

深度学习之NLP学习笔记(七)— Transformer复杂度分析_第1张图片


Self-Attention复杂度

A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K T d ) V Attention(Q,K,V) = Softmax(\frac{QK^{T}}{\sqrt{d}})V Attention(Q,K,V)=Softmax(d QKT)V
深度学习之NLP学习笔记(七)— Transformer复杂度分析_第2张图片


线性Attention

深度学习之NLP学习笔记(七)— Transformer复杂度分析_第3张图片


Transformer应用

深度学习之NLP学习笔记(七)— Transformer复杂度分析_第4张图片


MSA、W-MSA

深度学习之NLP学习笔记(七)— Transformer复杂度分析_第5张图片
深度学习之NLP学习笔记(七)— Transformer复杂度分析_第6张图片

你可能感兴趣的:(NLP,Transformer,self-Attention,注意力,复杂度)