DeFINE:用于神经序列建模的深度分解输入令牌嵌入

一、说明

DeFINE,是华盛顿大学和艾伦人工智能开发的自然语言处理工具,可以处理的范围是:NLP、语言模型、LM、神经机器翻译、NMT、变压器、变压器-XL等;本文对token-bedding进行生成。

        借助DeFINETransformer-XL可以在低n维空间而不是高m维空间中学习输入(嵌入)和输出(分类)表示,从而显着减少参数,同时对性能的影响最小。

        DeFINE:用于神经序列建模的深度分解输入令牌嵌入

  • 提出了一种具有新型跳跃连接的分层结构,允许使用低维输入和输出层减少总参数和训练时间,同时提供与现有方法相似或更好的性能。
  • DeFINE可以很容易地整合到新的或现有的序列模型中。

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第1张图片

二、分层组转换(HGT)

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第2张图片

        使用N = 3的不同转换层学习令牌表示。(a) 线性变换 (b) 组线性变换 (GLT) (c) HGT

2.1. 动机和整体想法

  • 大多数NLP研究使用浅层网络来学习令牌嵌入的良好近似。
  • DeFINE,一种在高维空间中学习深度令牌表示的有效方法,只需最少的附加参数。
  • 该方法基于Map-Expand-Reduce(MER)原理,首先将输入令牌映射到低维嵌入向量,然后使用计算高效的分层组变换(HGT)将其转换为高维空间
  • 然后将生成的向量转换为低维空间。
  • 通过使用在输入层和输出层之间建立直接链接的新连接模式,促进要素重用改进梯度流。

2.2. 映射-扩展-缩减 (MER)

  • MER的第一步,Map,类似于标准序列模型。 词汇表V中的每个输入标记都映射到大小为n×1的固定维度向量ei然而,在本文中,n的值很小(比如64或128,而典型的尺寸为400或更大)。
  • 下一步 Expand,将 ei 作为输入应用分层群变换 (HGT) 来生成大小为 k×1 的非常高维向量 ^ei,其中 k>>n
  • 最后一步Reduce将向量^ei投影到较低维空间,以生成给定输入令牌大小m×1的最终嵌入向量eo
  • eo的尺寸可以与上下文表示模型(例如LSTM或变压器)相匹配,从而使DeFINE可以作为这些模型的输入层。

2.3. 分层组转换 (HGT)

  • HGT由N层的堆栈组成。
  • HGT 从第一层的 gmax 组开始然后在每个级别将组数减少 2 倍。
  • 群线性变换(GLT)最初是为了提高LSTM的效率而引入的,也稀疏了全连接层中的连接,如上所示。然而,某个组的输出仅来自输入的一小部分,因此学习弱表示
  • 形式上,在 HGT 中,第 l 层从 ei 到 ^ei 的转换为:

  • 哪里:

  • Wl 是在第 l 层学习的权重FG 群变换函数
  • 组变换将输入拆分为 g 组,每个组都使用线性变换独立处理。然后将这些组的输出连接起来以产生最终输出

.  DeFINE的单元

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第3张图片

        N = 2 的 DeFINE 单元,它使用 HGT 有效地学习输入令牌表示,并与输入直接连接以最大化信息流。

  • DeFINE单元由HGT变换组成。
  • 使用一个简单的新跳过连接,在 HGT 中的任何层与输入 ei 之间建立直接链接,如上所述。
  • 输入和输出使用拆分层块到 gl 组中。然后混合分块的输入和输出向量

此机制可有效地促进输入要素重用。此外,它还与输入 ei 建立直接链接,允许梯度通过多条路径回流到输入,从而提高性能。

  • 输入令牌和 DeFINE 单元 (eo) 输出之间的映射可以使用查找表进行缓存,从而产生一种允许在推理时跳过 DeFINE 单元计算的机制。

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第4张图片

堆叠转换层 FG(第 A.1 节)的不同方法,用于学习深度令牌表示。

  • 此图总结了具有不同设置的不同体系结构

四、 结果

4.1. LSTM 模型

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第5张图片

基于RNN的语言模型在WT-103和PTB数据集上的性能。

  • (a):所提出的方法进一步提高了约3分的性能,同时只学习了1.25%(或0万个)的参数

(b):DeFINE的深度从3层缩放到11层。性能进一步提高了 6 个百分点,为具有更少参数的现有基于 RNN 的方法提供了有竞争力的性能(例如,参数是 Merity 等人 (1a) 的 3/2018)。

  • (c):所提出的方法将AWD-LSTM的性能提高了4个百分点,同时减少了4万个参数。

4.2. 变压器模型

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第6张图片

Transformer-XL在Wikitext-103数据集上的性能。DeFINE 用于 N = 3、k = 4096 和 m = 384。

  • 所提出的方法能够获得与Dai等人(2019)相似的性能,同时学习的参数减少了10M

带有DeFINE的变压器XL能够实现与具有投影嵌入的标准变压器-XL相当的困惑度,同时使用的参数明显更少。

4.3. 机器翻译

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第7张图片

基于变压器的模型(有和没有DeFINE)在神经机器翻译任务上的结果

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第8张图片

不同因子分解方法的不同序列模型的性能比较。 对于语言建模,性能是通过困惑来衡量的;对于机器翻译,使用 BLEU。

  • OpenNMT用于变压器模型训练。

DeFINE将无检查点平均值的变压器模型的性能提高了2%,同时将参数总数减少了26%,这表明DeFINE是有效的。

4.4. 进一步分析和消融

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第9张图片

Transformer-XL中使用的不同嵌入层的相关图(m×m),在WikiText-128上n = 384和m = 103。

DeFINE能够有效地近似标准嵌入矩阵

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第10张图片

Transformer-XL使用 不同分解方法的性能,有和没有Shu&Nakayama(2017)的压缩方法。

DeFINE 嵌入可以像标准嵌入一样压缩,而不会损失性能。

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第11张图片

WikiText-103数据集上不同变换之间的比较。

左:HGT将困惑度提高了约5分,同时学习了与GLT相似数量的参数。

:此外,当使用直接连接时,性能进一步提高了 2.9 点。

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第12张图片

缩放深度和宽度对WT-103的影响。

对于相同的 k 值,语言模型的性能随着深度 N 的增加而提高。但是,当我们缩放深度 N 的固定值的宽度 k 时,性能并没有提高。

DeFINE:用于神经序列建模的深度分解输入令牌嵌入_第13张图片

WT-103上的不同设置:(a)不同跳跃连接的影响。(b) 减少市面汇率作业的影响

左图:提议的跳过连接更有效。

右:有和没有这个归约步骤的性能相似的,但是,没有归约步骤的模型会学习更多的参数

        作者认为,ELMo和BERT等预训练语言模型架构可以从整合DeFINE中受益,以提高效率和性能。

你可能感兴趣的:(ChatGPT,NLP专栏,自然语言处理,人工智能)