Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling(翻译)




1. 简介





2. 背景

2.1 RNN用于槽填充


2.2 encoder-decoder

这种结构可以处理变长序列,在[12]中引入的注意机制使编码器 - 解码器模型能够学习软对齐并同时解码。

3. 提出的方法

3.1 对齐输入的encoder-decoder


图 2:对意图和槽填充联合任务的encoder-decoder模型。(a)未对其输入(b)对其输入(c)输入对齐,有attention,encoder使用blstm,使用encoder反向传播的最后状态初始化decoder的RNN状态

联合意图识别和槽值填充的encoder–decoder模型如图2所示,使用LSTM单元。前向和后向的RNN序列会在每个时间步产生隐藏状态fbi 和 bfi ,最终的编码序列是两者的串联即 hi = [fbi, bfi]。

前后向encoder RNN的最后状态包含有整个序列的信息。我们使用了反向encoder RNN的最后状态去初始化decoder的隐藏状态,decoder是单向RNN。ci为上下文向量,hi为对齐的encoder隐藏向量,si为decoder每个时间步状态。

其中上下文向量 c 是encoder状态h=(h1,…,hn)的权重和,计算:




意图识别和槽填充共享一个encoder,意图识别共享初始化decoder状态的S0,它编码了整个序列的信息。并且上下文向量Cintent 表示意图解码器要注意的源序列的一部分。

3.2 基于attention的RNN模型


图3:基于attention的RNN联合模型。双向的RNN前后向读取源序列。槽标签依赖前向RNN建模。在每个时间步,串联前后向隐藏状态用于预测槽标签,如果使用attention,上下文向量Ci从输入序列部分提供信息,词向量Ci和时间对齐的隐状态向量 hi一起预测槽标签。

birnn对于序列标记,每个时间步都会携带整个句子的信息,但是在前后向传播中会发生信息丢失。因此,对槽标签预测,不仅是利用每一步的隐藏状态hi ,我们应该看是否使用上下文向量Ci给我们提供额外的支持信息,尤其那些长期依赖是否被隐藏状态完全捕捉。

槽标记依赖于前向的RNN建模,类似于encoder-decoder结构中的encoder模型,每个时间步的隐藏状态hi 是前向和后向状态的串联hi=[fhi,bhi]。每个隐藏状态hi包含了整个输入序列的信息,hi会结合上下文向量Ci 产生标签分布,其中上下文Ci 作为RNN隐状态h = [h1,…, hT]的加权平均来计算。

对于联合模型,我们再次使用了birnn的隐状态h来产生意图类分布。如果不使用attention, 我们在随着时间分布隐藏状态h, 后应用平均池化,通过逻辑回归执行意图分类[17]。如果使用attention,我们要改变隐藏状态h的加权平均值。


4 实验

4.1 数据


4.2 训练步骤



batch_size = 16

word embedding = 128

dropout = 0.5


4.3 单独训练模型:槽填充



表2:与以前方法的比较。 ATIS插槽填充的独立培训模型结果。


4.4 独立训练模型:意图检测



4.5 联合模型



5 结论

我们探索了在基于注意力的编码器 - 解码器神经网络模型中利用显式对齐信息的策略。



