transformer和CNN

来源:https://zhuanlan.zhihu.com/p/330483336
优点
这一块分析的人很多,就不深究。

  1. 可以直接计算每个词之间的相关性,不需要通过隐藏层传递

  2. 可以并行计算,可以充分利用GPU资源

缺点

  1. 局部信息的获取不如RNN和CNN强

  2. 位置信息编码存在问题

在使用词向量的过程中,会做如下假设:对词向量做线性变换,其语义可以在很大程度上得以保留,也就是说词向量保存了词语的语言学信息(词性、语义)。然而,位置编码在语义空间中并不具有这种可变换性,它相当于人为设计的一种索引。那么,将这种位置编码与词向量相加,就是不合理的,所以不能很好地表征位置信息。

  1. 顶层梯度消失

Transformer 模型实际上是由一些残差模块与层归一化模块组合而成。目前最常见的 Transformer 模型都使用了LN,即层归一化模块位于两个残差模块之间。因此,最终的输出层与之前的 Transformer 层都没有直连通路,梯度流会被层归一化模块阻断。

你可能感兴趣的:(pytorch,笔记,python,人工智能)