Towards Better Modeling Hierarchical Structure for Self-Attention with Ordered Neurons

2019 EMNLP
Tencent AI Lab

Introduction

结合了SAN和递归神经网络(RNN)优势的混合模型在机器翻译任务上的性能优于两种单独的体系结构。
我们可以将传统RNNs替换为 Ordered Neurons LSTM(ON-LSTM)。ON-LSTM通过引入面向语法的归纳偏置,更擅长于对层次结构进行建模,这使RNN可以通过控制神经元的更新频率来执行树状合成。

Approch

我们将SAN编码器堆叠在RNN编码器之上,以形成级联编码器。
在级联编码器中,底层RNN编码器中增强了层次结构建模,因此SAN编码器能够提取具有更丰富层次信息的表示形式。公式为:


其中,ENCRNNs(·) 是一个K层的RNNs,ENCSANs(·) 是一个L层的 SANs encoder,它用RNNs的输出作为自身的输入。

Ordered Neurons

Ordered Neurons(有序神经元)可以使LSTM模型能够执行树状组合而不会破坏其顺序形式。Ordered Neurons 可以通过控制神经元的更新频率来动态分配神经元,以表示不同的时间尺度依赖性。预期的神经元背后的假设是,某些神经元总是比其他神经元更频繁(或更少)更新,并且这种现象是作为模型架构的一部分预先确定的。其公式为:


Master forget gate 和 master input gate 分别控制擦出和写入的行为, 表明了重叠部分。

Ideal master gate 采用二进制格式,例如(0,0,1,1,1)。它将单元状态分为两个连续的部分:0-part和1-part。 对应0-part和1-part的神经元的更新频率分别对应more和less。因此0-part的神经元中的信息只会保持几个时间步长,而1-part的神经元中的信息会保持更多的时间。 由于这种二进制门不可微,因此目标转向寻找分裂点d(ideal master gate中第一个1的索引)。

A New Activation Function

softmax提供了概率分布,例如(0.1, 0.2, 0.4, 0.2, 0.1),表示每个位置成为分割点d的概率。CUMSUM是累计分布函数,第k个概率是d落在前k个位置内的概率。上面例子的输出为(0.1,0.3,0.7,0.9,1.0)。不同的值表示不同的更新频率。 它也等于ideal master gate中每个位置的值为1的概率。
CU(·)是ideal master gate的期望。
因此,master gates 被定义为:


is the current input and is the hidden state of previous step.

Short-Cut Connection

Add the output of the ON-LSTM encoder to the output of SANs encoder:


Where ∈ is the output of ON - LSTM encoder, and ∈ is output of SANs encoder.

Experiments

该模型可用于 Machine Translation,Targeted Linguistic Evaluation 和 Logical Inference,均取得了更好的效果。

你可能感兴趣的:(Towards Better Modeling Hierarchical Structure for Self-Attention with Ordered Neurons)