使用MindStudio进行funnel模型训练


 

Funnel-Transformer 提出另一种简单但有效的提高 Transformer 处理长序列效率的方法: 随着模型加深,使用池化操作压缩在序列方向上的长度,让模型变窄,从而节约高层的参数量,直到最后得到单个向量(或几个,取决于任务)。于是,这单个向量就可以直接用于句子级别的任务,如文本分类。但是,这样的模型就不能用于 token 级别的任务了,比如问答等。为此,本文又在最后加上一个 Decoder,将最后得到的单个向量上采样,从而恢复到原来的序列长度。这样一来,将相当于压缩了整个模型的中间部分,而保持开始和结束层的长度不变,也就可以像原始 Transformer 一样用于各类任务了。Funnel-Transformer 模型整体架构如图所示。

 

Funnel-Transformer 模型整体架构


你可能感兴趣的:(深度学习,人工智能,transformer)