Transformer关于Self-Attention及Multi-Head Attention

Transformer关于Self-Attention及Multi-Head Attention

对于 RNN 模型记忆长度有限且无法并行化,只有计算完 t(i) 时刻后的数据才能计算 t(i+1) 时刻的数据。Transformer 则有效的弥补了这个问题。转载文章中作者对 Self-Attention 进行了详细的讲解,在此基础上引申出 Multi-Head Attention。

转载文章:详解Transformer中Self-Attention以及Multi-Head Attention

你可能感兴趣的:(深度学习,transformer,深度学习,人工智能)