transformer系列论文-Sliced Recursive Transformer

参考https://mp.weixin.qq.com/s/jNPQ2eQPTMkDbhjaYaM7Qg
文章中提及vision transformer相邻层的激活和权重是相似的,没有太大差异,这意味着他们可以重复使用。具有固定堆叠的不同层transformer在递归神经网络中失去感应偏差(inductive bias),这激发了我们以递归方式共享这些权重,从而形成了迭代或递归vision transformer。递归可以帮助提取更强的特征,而无需增加参数,并进一步提高准确性。此外,这种权重重用或共享策略通过减少参数数量来部分地规范训练过程,以避免过度拟合和不收敛的问题。
为什么我们需要再transforme中引入切片递归(sliced recursion),group self-attention?(优点和缺点)
我们通常会在有限的参数范围内完善网络的权重利用率,因此,它可以在资源有限的情况下 (例如嵌入式设备) 实际使用。递归是一种在循环方案中压缩特征表示的直接方法。递归神经网络还允许分支具有层次结构的连接和结构。我们发现,对于以分层方式学习视觉数据上更好的表示是非常重要的,正如我们将在实验的图10中介绍的那样。此外,即使是最简单的递归操作,也可以提高利用参数的紧凑性,而无需修改变压器块结构,这与其他 [50、61、24、55、57、37、31、59] 不同,它们会添加更多参数或涉及来自输入的其他细粒度信息 [19]。**但是,这样的递归将通过其循环产生更多的计算成本,即,它牺牲了执行效率以获得更好的参数表示利用率。**针对这一缺点,我们提出了一种全局自我注意的近似方法,通过将其分解为跨递归层的多个切片组自我注意,同时,在享受相似的触发器和更好的表示的同时,我们还应用空间金字塔设计来降低网络的复杂性

前馈网络、递归神经网络和递归神经网络。Feed-forward Networks, Recurrent Neural Networks and Recursive
Neural Networks.前馈网络 (例如cnn和变压器) 是有向无环图 (DAG),因此前馈处理中的信息路径是单向的。循环网络 (rnn) 通常用于处理时间序列和其他顺序数据,并使用当前输入和过去的内存进行预测。与其他两个对应项相比,递归网络是一个不太常用的术语。递归是指重复或重用网络的某个部分5。与在整个网络中重复相同块的rnn不同,递归网络出于特定目的选择性地重复关键块。递归变换器迭代地细化序列中所有补丁的表示形式。我们发现,通过将设计的递归到前馈变压器中,我们可以显着增强特征表示,尤其是对于结构化数据,而无需包含其他参数。

强大的实验结果表明,将建议的切片递归操作集成到变压器中,可以在精度,模型大小和复杂性之间进行竞争性权衡。据我们所知,几乎没有现有的研究视觉变压器中递归运算的有效性的工作,并提出了用于降低递归运算复杂性的自我注意方法的近似方法。我们已经进行了广泛的实验,为视觉任务的新设计得出了一套指导方针,并希望它对未来的研究有用。此外,由于我们的方法不涉及用于修改变压器块或其他输入信息的复杂知识,因此它与大多数现有的ViT设计和方法正交且友好。

我们的贡献。
-我们研究了在视觉变压器中利用切片组自我注意来利用递归操作的可行性,这是建立有效变压器的有希望的方向,并且以前尚未得到很好的探索。我们对递归在变压器中的作用进行了深入研究,并得出了一种有效的方案来使用它们来更好地利用参数。
-我们提供设计原则,包括具体格式和与SReT体系结构变体的综合比较,计算等效分析,改进蒸馏等,以期对紧凑型变压器设计和优化的未来研究有所启发。
-我们在各种情况下验证我们的方法,包括视觉变压器,变压器变体的全MLP架构以及使用变压器的神经机器翻译 (NMT)。我们的模型以较少的参数大大超过了最先进的方法。

先留个坑吧,后续再写

你可能感兴趣的:(transformer系列)