pytorch-transformer

讲解常见模块对比

一、cnn

pytorch-transformer_第1张图片
主要是并行,时间短

二、RNN

对顺序敏感
与时间相关
可见up主——耿直哥关于RNN介绍

pytorch-transformer_第2张图片

三、transformer

序列与序列建模
位置信息很重要
擅长长短程建模 依靠子注意力机制
pytorch-transformer_第3张图片

四、看transformer架构

1、看整体
pytorch-transformer_第4张图片
2、看encoder
pytorch-transformer_第5张图片
3、看decoder
pytorch-transformer_第6张图片
4、最后
映射到一个概率空间
进行字符分类

5、因为transformer对于局部和全局不敏感
所以都加入了 position Encoding 位置编码

在这里插入图片描述
由于每个block都有很多残差链接**(体现在图中就是这些箭头)
使得位置信息得以充分传播。
不会因为position Encodin在最底层而被抵消**
pytorch-transformer_第7张图片

五、up思维导图

pytorch-transformer_第8张图片
pytorch-transformer_第9张图片
pytorch-transformer_第10张图片

你可能感兴趣的:(transformer,pytorch,transformer,人工智能)