论文-Multi-Domain Joint Semantic Frame Parsing using Bi-directional RNN-LSTM(Joint Seq)

1. 简称

论文《Multi-Domain Joint Semantic Frame Parsing using Bi-directional RNN-LSTM》简称Seq Joint，作者Dilek Hakkani-Tu ̈r（Microsoft），经典的NLU论文（Semantic Frame）。

2. 摘要

序列到序列深度学习是近年来在口语理解的监督学习中出现的一种新范式。然而，以前的大多数研究都是探索这一框架来为每个任务建立单个领域模型，(如空位填充或领域分类)，并将基于深度学习的方法与传统的方法(如条件随机场)进行比较。

本文提出了一种整体的多领域、多任务(即空位填充、领域和意图检测)建模方法来估计针对会话系统的所有用户话语的完整语义框架，展示了深度学习方法的独特能力，即具有长-短期记忆(LSTM)单元的双向递归神经网络(RNN-LSTM)来处理这种复杂性。

本文的贡献有三个方面：(I)我们提出了一个RNN-LSTM体系结构，用于空位填充、意图确定和领域分类的联合建模；(Ii)我们建立了一个联合多领域模型，支持多任务深度学习，每个领域的数据相互补充；(Iii)我们研究了口语理解中词汇上下文建模的替代体系结构。

除了简化单一模型框架之外，实验结果表明，与基于单域/任务深度学习的替代方法相比，该方法在Microsoft Cortana真实用户数据上的能力更强。

3. 引言

在过去的十年中，已经针对许多领域构建了各种实用的面向目标的对话理解系统，例如Microsoft Cortana和Apple的Siri虚拟个人助理。在这类有针对性的理解应用程序中，三个关键任务是域分类，意图确定和时隙填充，旨在形成一个语义框架，以捕获用户话语/查询的语义。领域分类通常首先在口语理解（SLU）系统中完成，用作后续处理的顶级分类。然后为每个域运行意图确定和时隙填充，以填充特定于域的语义模板。图1显示了与电影相关的话语的示例语义框架“find recent comedies by James Cameron”。

这种模块化设计方法（即将SLU建模为3个任务）具有灵活性的优势；可以对域进行特定的修改（例如插入，删除），而无需更改其他域。另一个优点是，采用这种方法，可以使用特定于任务/领域的功能，这通常可以显着提高这些功能的准确性。此外，由于意图确定只需要考虑单个（或有限集合）域上相对较小的意图和插槽类集，并且可以优化模型参数，因此该方法通常在每个域中产生更集中的理解。用于特定的意图和广告位。但是，这种方法也有缺点：首先，需要针对每个域训练这些模型。这是一个容易出错的过程，需要进行仔细的工程设计以确保跨域处理的一致性。同样，在运行时，这种任务的流水线处理将导致错误从一个任务转移到以下任务。此外，各个领域模型之间没有数据或功能共享，从而导致数据碎片，而某些语义意图（例如，查找或购买特定领域的实体）和广告位（例如，日期，时间和位置）实际上可能是许多领域所共有的。最后，用户可能不知道系统覆盖了哪些域以及覆盖的程度，因此此问题导致交互，用户不知道期望什么，从而导致用户不满意。

我们提出了一个单一的递归神经网络（RNN）体系结构，该体系结构将域检测，意图检测和时隙填充这三个任务集成到一个SLU模型中。使用来自所有域的所有可用话语以及它们的语义框架来训练该模型。该RNN的输入是单词的输入序列（例如，用户查询），输出是完整的语义框架，包括域，意图和时隙，如图1所示。由于单词之间的依赖性对于SLU很重要在任务中，我们研究了用于集成词法上下文和依赖项的替代体系结构。我们将单模型方法与为多任务，多域方案构建模型的替代方法进行了比较。

下一节将基于空位填充任务设置基线RNN-LSTM体系结构，并探讨各种利用词汇上下文的体系结构。在第3节中，我们将这种体系结构扩展到除了时隙填充之外，还可以对用户话语的域和意图进行建模，并提出了SLU的多域多任务体系结构。在实验中，我们首先在基准ATIS数据集上研究替代体系结构的性能，然后在Microsoft Cortana多域域数据上进行研究。我们表明，单一的多域联合模型方法不仅更简单，而且可以得到最佳的F度量。

4. 核心

在面向目标的人机对话理解系统中，口语言理解的一项主要任务是自动对用户查询的域以及特定领域的意图进行分类，并填写一组参数或“槽”以形成一个语义框架。在本研究中，我们遵循流行的IOB（从内到外）格式来表示插槽标签，如图1所示。

基本上，域检测和意图确定任务被归类为分类问题，为此，研究人员采用了支持向量机，最大熵分类器或基于增强的分类器。类似地，时隙填充被构造为一个序列分类问题，并且已经采用了隐马尔可夫模型和条件随机场。

随着深度学习的发展，首先将具有深度神经网络（DNN）的深度信念网络（DBN）用于呼叫中心的意图确定，随后将其用于个人助理的域分类。最近，已采用具有LSTM单元的RNN架构进行意图分类。

对于空位填充，深度学习研究已作为DNN和DBN的扩展而开始，有时与CRF合并。一个值得注意的扩展是使用递归神经网络，将问题归结为语义解析。据我们所知，Rao等人首先将RNN用于时隙填充。我们对基于RNN的时隙填充方法进行了全面的综述。

尤其是随着重新发现RNN的LSTM细胞[25]，这种体系结构已经开始出现。如图所示，LSTM电池具有优越的性能，例如更快的收敛性和通过自我调节而消除了梯度逐渐消失或爆炸的问题。结果，LSTM在捕获大跨度依存关系方面比RNN更健壮。

4.1 RNN with LSTM cells for slot filling

为了估算与令牌输入序列对应的标签序列，我们使用Elman RNN体系结构，由输入层组成，一个隐藏层和一个输出层。输入，隐藏和输出层由一组神经元组成，分别代表每个时间步长的输入，隐藏和输出。输入通常由独热向量或字级嵌入表示。给定时间的输入层，以及上一个时间步的隐藏状态，当前时间步的隐藏层和输出层的计算如下：

其中和是分别表示输入层和隐藏层以及隐藏层和输出层之间权重的矩阵。表示激活函数，即tanh或者sigm。softmax被定义为:，该模型的权重是使用反向i训练的传播以最大化训练集标签的条件似然：

先前的工作表明，随着时间的推移反向传播的训练模型参数可能会导致梯度爆炸或消失。梯度裁剪可以缓解梯度爆炸，但这无助于消除梯度。 LSTM单元设计用于缓解消失梯度问题。除了隐藏层矢量之外，LSTM还维护一个存储矢量，它可以使用门控机制和型函数选择从中读取，写入或重置。输入门，用于按比例缩小输入；遗忘门用于缩小存储向量；输出门用于按比例缩小输出以达到最终。按照精确公式，LSTM中的这些门的计算如下，如图2所示：

其中，sigm tanh以元素方式应用，是权重矩阵，并且

4.2 Integration of context

在SLU中，单词标签不仅由关联的术语确定，而且还取决于上下文。例如，在ATIS数据中，根据其出现的词汇上下文，可以将城市名称Boston标记为始发城市或目的地城市。为捕获此类依存关系，我们研究了RNN-LSTM体系结构的两个扩展（图3.（a ））：环视LSTM（LSTM-LA）和双向LSTM（bLSTM）。

在每个时间步上，除了之外，LSTM-LA（图3.（b））通过将相邻单词的输入向量进行级联，将后面和前面的单词视为输入的一部分。在这项工作中，我们在时间t的输入包含一个由向量串联而成的向量。

在bLSTM(图3.(C))中，两个LSTM架构以从左到右和从右到左的方式遍历，并且在计算输出序列时将它们的隐藏层连接在一起(我们使用上标和表示前后方向的参数)：

其中正向和反向门分别计算如下：

为了使实现更有效，许多共享计算都进行了一次，例如输入向量准备或顶级梯度计算，其中是目标标签的one-hot向量。

图3描绘了这三种架构，以及意图LSTM架构，我们将其用于孤立建模意图和领域作为基线。

4.3 Joint,Multi-Domain Modeling of Domain, Intent and Slots

代表时隙填充的时隙标签的一种常用方法是将话语的每个输入单词与图1所示的IOB样式的标签相关联，因此输入序列为和输出是插槽标签的序列。我们遵循这种方法，并将slot标签与每个单词相关联。

对于域，意图和时隙的联合建模，我们在每个输入话语的末尾假设一个附加标记，并通过串联将域标记和意图标记和的组合与此句子最终标记关联这些标签。因此，新的输入和输出序列为：

这种想法的主要原理类似于序列翻译的建模方法，该方法用于机器翻译或聊天系统方法中。该查询的最后一个隐藏层应该包含整个输入话语的潜在语义表示，以便可以将其用于领域和意图预测（）。

5. 实验

为了训练所有体系结构，我们使用了具有10个示例和adagrad的批处理大小的小批量随机梯度下降方法。在所有实验中，我们分别在{50，75，100，125，150}中使用了不同的隐藏层大小，并在{0.01，0.05，0.1}中使用了固定的学习率。我们仅使用词汇功能（即不使用字典），并使用独热单词向量（包括所有词汇）来表示输入。除了1-hot向量，我们还对word2vec 和Senna嵌入进行了实验，并且没有观察到明显的性能改进，因此仅报道了1-hot向量的结果。所有参数均在[-0.01，0.01]中统一初始化。

5.1 Data sets

为了研究时隙填充的上下文集成，我们对航空旅行领域的基准ATIS数据集进行了实验。对于与联合域，意图和插槽建模有关的实验，选择了四个域：警报，日历，通信和技术，以在词汇量，意图和插槽数量方面创建多样化的集合。表1列出了每个数据集的训练，发展和测试话语的数量，词汇量，意图和插槽的数量。如该表的最后一行所示，联接的数据集小于单个域中的意图和插槽的数量之和，这是因为其中一些在不同的域之间共享。

5.2 Slot Filling Experiments

ATIS数据集带有常用的训练和测试拆分。为了调整参数，我们进一步将训练集分为90％训练集和10％开发集。在选择使开发集上的F度量最大化的参数之后，我们使用具有10个不同初始化和平均F度量的最佳参数集的所有训练数据对模型进行了重新训练。当使用90％的训练样本时，将最大F度量（最佳F）计算在测试集上，并通过对10次跑步中的F度量求平均值来计算平均F度量（平均F）。当所有训练示例都使用最佳参数时。这些结果显示在表2中。我们使用双向LSTM架构获得了最佳的F度量（尽管与LSTM-LA相当），RNN，LSTM和LSTM-LA的相对性能与我们先前的工作并行，但由于归一化的差异，F测度略低。

5.3 Multi-Domain,Joint Model Experiments

在插槽填充实验之后，我们使用双向LSTM单独对插槽进行建模，并共同对意图和插槽进行建模，然后，我们使用LSTM对意图进行建模。

我们尝试了4种设置，并针对以下各项分别报告了插槽F度量（插槽F，表3），意图准确性（INTENT A，表3和总体帧错误率（OVERALL E，表4））：

SD-Sep:对于每个域，训练了一个单独的意图检测和插槽填充模型，结果为。分类器，其中是域的数量。在每个实验的开发集中找到了最佳参数，并将这些参数用于测试集的性能计算。将所有分类器的输出合并，以获取整体错误率。
SD-Joint:对于每个域，使用一个可同时估计槽的意图和顺序的模型，结果为分类器。
MD-Sep:使用来自所有领域的数据对意图检测模型和空位填充模型进行了训练，得出了2个分类器。目的检测的输出与时隙填充的输出合并，以计算总体模板错误率。
MD-Joint:使用所有数据训练了一个单独的分类器，用于估计每个语义的完整语义框架，其中包括域，意图和时隙。

前两个设置假定为测试集中的每个示例提供了正确的域。为了估计这种更高级别的域估计，我们使用所有数据训练了一个用于域检测的LSTM模型，在测试集上域检测的准确性为95.5％。表3显示了前两个设置的真实域已知时的意图检测和时隙填充的结果，因此这两个设置的性能似乎更高，但是，表4显示了将域估计集成到决策中时的总体帧错误率最后一帧。在单域和多域设置中，意图训练的精度都会通过联合训练而提高（尽管很小），但是插槽填充会降低。总体而言，我们使用单一模型方法实现了最低的误差。所有数据上的13.4％语义误帧率明显优于常用的SD-Sep。

6. 重点论文

G. Tur and R. D. Mori, Eds., Spoken Language Understanding: Systems for Extracting Semantic Information from Speech. New York, NY: John Wiley and Sons, 2011.
G.Mesnil,Y.Dauphin,K.Yao,Y.Bengio,L.Deng,D.Hakkani- Tur, X. He, L. Heck, G. Tur, D. Yu et al., “Using recurrent neu- ral networks for slot filling in spoken language understanding,” IEEE/ACM Transactions on Audio, Speech, and Language Pro- cessing, vol. 23, no. 3, pp. 530–539, 2015.
P. J. Price, “Evaluation of spoken language systems: The ATIS domain,” in Proceedings of the DARPA Workshop on Speech and Natural Language, Hidden Valley, PA, June 1990.
Y. Bengio, P. Simard, and P. Frasconi, “Learning long-term de- pendencies with gradient descent is difficult,” IEEE Transactions on Neural Networks, vol. 5, no. 2, pp. 157–166, 1994.
R.Pascanu,T.Mikolov,andY.Bengio,“Onthedifficultyoftrain- ing recurrent neural networks,” arXiv preprint arXiv:1211.5063, 2012.
A. Graves and J. Schmidhuber, “Framewise phoneme classifica- tion with bidirectional LSTM and other neural network architec- tures,” Neural Networks, vol. 18, no. 5, pp. 602–610, 2005.
S. Ravuri and A. Stolcke, “Recurrent neural network and LSTM models for lexical utterance classification,” in Interspeech, 2015.
I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in Neural Infor- mation Processing Systems 27, Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, Eds., 2014, pp. 3104–3112.
O. Vinyals and Q. V. Le, “A neural conversational model,” in ICML Deep Learning Workshop, 2015.
Y.-N.Chen,D.Hakkani-Tu ̈r,G.Tur,J.Gao,andD.Li,“End-to- end memory networks with knowledge carryover for multi-turn spoken language understanding,” in Proceedings of Interspeech, 2016.

7. 代码编写

# 后续追加代码分析

参考文献

Hakkani-Tur, D., Tur, G., Çelikyilmaz, A., Chen, Y.-N., Gao, J., 0001, L. D., & Wang, Y.-Y. (2016). Multi-Domain Joint Semantic Frame Parsing Using Bi-Directional RNN-LSTM. Interspeech.