最详细的Transformer讲解,Attention Is All You Need

前言

Attention Is All You Need

Google Brain      引用量:30255(1/3 ResNet)

贡献:Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN。

一直听别人说Transformer,搞不清楚是什么。可以不用,但是需要理解。

但现有的博客,感觉大多轻飘飘的,甚至没讲清楚 attention 和 self-attention的区别,q,k,v表示什么意义,怎么引入等等。

我这里做了一点小总结,需要PPT,请评论自己邮箱。制作不易,帮忙点赞。

建议学习路线:李宏毅课程(宏观理解)--->原文阅读(细节阅读)--->结合我下面PPT的讲义(串讲+总结+引申)。 当然先看我的讲义有个初步理解也OK,食用顺序取决于大家。

李宏毅课程:李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1JE411g7XF?p=54

Transformer原文:

https://arxiv.org/abs/1706.03762https://arxiv.org/abs/1706.03762

一、Transformer背景

最详细的Transformer讲解,Attention Is All You Need_第1张图片

 最详细的Transformer讲解,Attention Is All You Need_第2张图片

最详细的Transformer讲解,Attention Is All You Need_第3张图片

 最详细的Transformer讲解,Attention Is All You Need_第4张图片

 最详细的Transformer讲解,Attention Is All You Need_第5张图片

 最详细的Transformer讲解,Attention Is All You Need_第6张图片

二、Transformer内容介绍

最详细的Transformer讲解,Attention Is All You Need_第7张图片

 最详细的Transformer讲解,Attention Is All You Need_第8张图片

 最详细的Transformer讲解,Attention Is All You Need_第9张图片

 最详细的Transformer讲解,Attention Is All You Need_第10张图片

 最详细的Transformer讲解,Attention Is All You Need_第11张图片

 最详细的Transformer讲解,Attention Is All You Need_第12张图片

 最详细的Transformer讲解,Attention Is All You Need_第13张图片

 最详细的Transformer讲解,Attention Is All You Need_第14张图片

 ​​​​​​

最详细的Transformer讲解,Attention Is All You Need_第15张图片

 最详细的Transformer讲解,Attention Is All You Need_第16张图片

PS:这个动图详细的解释了所有的过程,这里我用语言总结下,Encoder包含1,2,3层,Decoder同样,首先Encoder不同之间相互作用,这个很好理解,对于Decoder,Decoder2在解析的过程中,需要用到Decoder2之前的中间信息,以及Input通过Encoder后的信息,但是不会用到Decoder1和Decoder3的信息。图建议仔细看三次,对整个Transformer的过程有个理解。

三、Transformer Result

最详细的Transformer讲解,Attention Is All You Need_第17张图片

 最详细的Transformer讲解,Attention Is All You Need_第18张图片

 最详细的Transformer讲解,Attention Is All You Need_第19张图片

 最详细的Transformer讲解,Attention Is All You Need_第20张图片

 最详细的Transformer讲解,Attention Is All You Need_第21张图片

 最详细的Transformer讲解,Attention Is All You Need_第22张图片

你可能感兴趣的:(Transformer,机器学习,深度学习,自然语言处理)