【Transformer系列】你需要的是Attention吗,MetaFormer介绍

MetaFormer介绍

  • 介绍
  • 归纳偏置
  • MetaFormer
  • Attention效果

介绍

Transformer提出时,作者认为效果最重要的部分是注意力机制。然后随着后续的研究,人们发现attention并没有那么重要,而且还有一个计算复杂度高的问题。MetaFormer认为,整个Tranformer的encoder/decoder单元是根本。甚至是使用pooling来代替Attention也能取得较好的效果。

归纳偏置

Transformer的归纳偏置是很少的。这也是Transformer通用性很好的主要原因,副作用就是需要大量数据,数据少会造成过拟合。

  • CNN的归纳偏置是Locality本地性(相邻的是相关的)和Translation equivariance平移等价(平移卷积操作可以互换,而结果不变)。
  • lstm归纳偏置是数据是序列的。

MetaFormer

作者观点是Transformer的成功源于它的架构。通过Spatial MLP和Pooling代替Attention,来证明了这个观点。
【Transformer系列】你需要的是Attention吗,MetaFormer介绍_第1张图片
从结果看,PoolFormer效果好于原生的Transformer,ResMLP也相差不大。
【Transformer系列】你需要的是Attention吗,MetaFormer介绍_第2张图片
整体模型分成4个阶段,每一阶段的结构是相同的。

Attention效果

attention机制虽然不是Transformer效果好的核心,但也是有作用的,作者提出最好的方式是:

在混合配置方面,Pool+Pool+Attention+Attention的组合具有最佳性能81%;其他配置同样非常好的性能。这说明,对于MetaFormer来说,组合Pooling与其他token mixer技术可能是一个提升模型性能的有价值的研究方向。

你可能感兴趣的:(机器学习,深度学习,transformer,深度学习,人工智能)