Enhanced LSTM for Natural Language Inference

摘要：

模型推理，我们提出了一个新的先进的结果，在斯坦福自然语言推理数据集中实现准确率88.6%。

自然语言推论（NLI）与确定是否可以从前提p推断自然语言假设h有关，如Mac Cartney（2009）的以下示例中所描述的，其中假设被假定为前提。

p：几家接受调查的航空公司发现，即使在调整通货膨胀率之后，其成本增幅也超出了预期。

h：参与调查的一些公司报告成本增加。

诸如自然语言推理之类的复杂任务很可能同时涉及到这两者，在识别文本蕴涵（RTE）的背景下已对此进行了讨论（Mehdad等，2010； Ferrone和Zanzotto，2014）。

我们表明，通过在本地推理模型和推理组合中使用递归网络对解析信息进行显式编码，并将其合并到我们的框架中，我们可以实现其他改进，以88.6％的准确度将性能提高到新的水平。

Parikh等。（2016）提出了一个相对简单但非常有效的可分解模型。该模型将NLI问题分解为可以单独解决的子问题。

在本文中，我们首先回顾了这个问题，并表明增强基于链网络的顺序推理模型实际上可以胜过所有先前的结果。我们进一步表明，明确考虑将递归体系结构编码为NLI的语法分析信息可以进一步提高性能。

我们在这里介绍我们的自然语言推理网络，该网络由以下主要组件组成：input encoding, local inference modeling, and inference composition。

图1：我们的混合神经推理网络的高级视图

在垂直方向上，该图描述了三个主要组成部分，在水平方向上，该图的左侧代表了我们称为ESIM的顺序NLI模型，而右侧则表示了在树LSTM中结合了语法分析信息的网络。

在我们的表示法中，我们有两个句子a =（a1，...，a`a）和b =（b1，...，b`b），其中a是前提，b是假设。ai或bj∈Rl是l维向量的嵌入，可以使用一些预训练的词嵌入对其进行初始化，并使用解析树进行组织。目的是预测指示y和b之间的逻辑关系的标签y。

我们采用双向LSTM（BiLSTM）作为NLI的基本构件之一。

为了保留这些符号以备后用，我们将BiLSTM在时间i上的输入序列a上的BiLSTM生成的隐藏（输出）状态称为：

双向LSTM在分别从左端和右端开始的序列上运行正向和反向LSTM。

图2：树状LSTM内存块

简而言之，在每个节点上，输入向量xt和它的两个子节点（左子节点hL t-1和右子节点hR t-1）的隐藏向量作为输入，以计算当前节点的隐藏向量ht。

其中σ是sigmoid 函数，是两个向量的元素相乘，并且所有W∈Rd×l，U∈Rd×d都是要学习的权重矩阵

在前提和假设之间建模局部实体推理是确定这两个语句之间总体推理的基本组成部分。

前者帮助收集单词及其上下文的局部推断，而tree LSTM帮助收集短语和从句之间的局部信息。