Transformer模型--Attention机制

Transformer模型来源于谷歌2017年的一篇文章(Attention is all you need)。在现有的Encoder-Decoder框架中,都是基于CNN或者RNN来实现的。而Transformer模型汇中抛弃了CNN和RNN,只使用了Attention来实现。因此Transformer是一个完全基于注意力机制的Encoder-Decoder模型。
在Transformer模型中引入了self-Attention这一概念,Transformer的整个架构就是叠层的self-Attention和全连接层。具体的结构如下:
Transformer模型--Attention机制_第1张图片

上面结构中的左半部分是Encoder,右半部分是Decoder。

创新点:Transformer只采用了attention机制。不像传统的encoder-decoder的模型需要结合RNN或者CNN来使用。创新之处在于使用了scaled Dot-product Attention和Multi-Head Attention。
将Transformer解释的最容易懂的还是The illustrated transformer

然后哈佛大学也给出了详细的pytorch版本的代码,有jupyter notebook详细的解释,看完也会有别样的收获。
附:深度学习中的注意力机制(2017版)
《Attention is All You Need》浅读(简介+代码)
未完待续,还会再更这一部分的内容,因为我还没咋理解透。。。

你可能感兴趣的:(机器学习and深度学习,Transformer模型,Attention机制)