Enhanced LSTM for Natural Language Inference

目录

  • 学习目标
  • 论文导读
    • 论文研究背景、成果及意义
      • 研究背景
      • 研究成果
    • 论文泛读
      • 论文小标题
      • 摘要
  • 论文精读
    • ESIM整体结构
    • 输入编码
    • 局部推理建模
    • 推理组合与输出预测
      • ESIM整体结构
    • 实验设置与结果分析
      • 实验细节
      • 实验结果
      • 消融实验
      • 注意力可视化的实验
    • 论文总结

Enhanced LSTM for Natural Language Inference_第1张图片

学习目标

Enhanced LSTM for Natural Language Inference_第2张图片

论文导读

论文研究背景、成果及意义

研究背景

  • 无论是人,还是机器。推理的能力都是其具备智慧的一种体现,推理能力越强,越具备智慧。不断改进模型,提高模型效果,进而提高机器的智能。
  • SNLI数据集为自然语言推理(NLI)提供了大规模训练的数据集和统一的评价标准,激发了研究者的热情。

研究成果

Enhanced LSTM for Natural Language Inference_第3张图片
在这里插入图片描述
syn.tree句法树作用:增强语义表达,整体表现锦上添花。
用语法树提取语义特征。

论文泛读

论文小标题

Enhanced LSTM for Natural Language Inference_第4张图片

摘要

Enhanced LSTM for Natural Language Inference_第5张图片

  • 推理是人和机器智能的关键体现
  • SNLI为推断模型提供了良好的数据支撑
  • 我们的模型在SNLI测试集准确率中取得了最佳成绩

Unlike the previous top models that use very complicated network architectures, we first demonstrate that carefully designing sequential inference models based on chain LSTMs can outperform all previous models.

不像之前的最佳的模型那样通过堆叠模型复杂度来获得优异效果,我们论证了:基于LSTM的序列推理模型的性能可能超过之前所有模型。
【来自Introduction】
为什么之前的模型结构复杂还没有ESIM效果好?答:之前的模型结构对模型推理能力的挖掘不够深入。

Based on this, we further show that by explicitly considering recursive architectures in both local inference modeling and inference composition, we archieve additional improvement.

基于上述模型(指ESIM),我们在局部推理建模层和推理组合层使用了递归结构(指树型LSTM)模型的效果进一步提升。

We show that by explicitly encoding parsing information with recursive networks in both local inference modeling and inference composition and by incorporating it into our framework, we achieve additional improvement, increasing the performance to a new state of the art with an 88.6% accuracy.

将语法树融入模型,模型在SNLI数据集上的准确率高达88.6%

摘要核心

  • 作者不像之前网络那样堆叠模型结构
  • 无需复杂网络结构,精心设计基于LSTM的模型依然有强劲的效果
  • 融合语法树结构,使得原本就已足够强大的模型效果更上一层楼

论文精读

ESIM整体结构

Enhanced LSTM for Natural Language Inference_第6张图片语法树与ESIM在形式上保持一致,语法树在输入编码层和推理组合层采用树型LSTM的结构,语法树部分的输出与ESIM的输出在特征维度上拼接起来,一起做结果预测。两部分网络结构是可以独立的。
ESIM执行流程:
输入编码层: 输入为两句话,图中表现为前提(Premise)和假设(Hypothesis),在输入编码层,两句话进行的处理为把句子中的单词转换为词向量,这样一句话就变成了一个矩阵或者说是一个向量组成的一个序列,二将两句话的矩阵分别送入各自的双向LSTM中,进行语义特征抽取,这是很基本的特征提取操作。
局部推理建模层: 主要为注意力运算,注意力机制的运用是为了捕获文本间的局部特征。在ESIM中,两句文本生成注意力矩阵后,又通过element-wise方法构造了一些特征,基于element-wise的减法和乘法在ESIM中也有体现。
推理组合层: 这一层的表示图与输入编码层一模一样,实际上也没有差别,这一层的网络结构也是双向lstm,可以理解为在捕获文本间注意力特征之后,进一步做融合提取语义特征的工作,聚合的作用是压缩特征。这一路走下来都是特征矩阵,目标是做softmax分类,需要一个特征向量,比较聚合模型采用的方法是把最终的矩阵展开,展成一个向量。ESIM采取平均池化和最大池化两种池化方式,在图中表现为输出预测层中,将两种池化的方式进行拼接,再接softmax做最后的分类。

输入编码

** 标记说明:**
在这里插入图片描述
a、b已经转化成词向量的形式。
Enhanced LSTM for Natural Language Inference_第7张图片
经过各自的BiLSTM进行语义特征的提取。

Enhanced LSTM for Natural Language Inference_第8张图片

Enhanced LSTM for Natural Language Inference_第9张图片
语法树:
此部分为了解部分内容。
Enhanced LSTM for Natural Language Inference_第10张图片Enhanced LSTM for Natural Language Inference_第11张图片
树型LSTM有两个遗忘门,分别是左遗忘门和右遗忘门。对于左遗忘门,需要左孩子的cell状态Ct-1L以及左右两孩子的输入特征ht-1L和ht-1R,当前部分的输入xt,普通LSTM只需要Ct-1和ht-1。至于输入门和输出门,树型LSTM和普通的LSTM并没有太大的差异,只是树型LSTM不管哪个门,都需要左右两个孩子的输入特征。下图为两者的公式:
Enhanced LSTM for Natural Language Inference_第12张图片树型LSTM与普通LSTM相比较,多了一个遗忘门以及每个位置需要两个孩子的特征向量以外,结构上并没有太大的区别,核心框架一模一样。所谓的语法树LSTM编码为文本经过语法结构后,送入到树型LSTM网络

局部推理建模

Enhanced LSTM for Natural Language Inference_第13张图片
Enhanced LSTM for Natural Language Inference_第14张图片
Enhanced LSTM for Natural Language Inference_第15张图片
Enhanced LSTM for Natural Language Inference_第16张图片

推理组合与输出预测

Enhanced LSTM for Natural Language Inference_第17张图片
这里的平均池化操作是在句子长度的方向上进行的
Enhanced LSTM for Natural Language Inference_第18张图片
Enhanced LSTM for Natural Language Inference_第19张图片

ESIM整体结构

Enhanced LSTM for Natural Language Inference_第20张图片

实验设置与结果分析

实验细节

  • 优化器使用Adam,第一参数为0.9,第二参数为0.999
  • 学习率lr = 0.0004,batch_size = 32
  • 使用预训练词向量< 300-D-Glove 840B >
  • 所有LSTM隐藏单元数设置为300
  • dropout比例为0.5

实验结果

从模型参数量、训练集准确率、测试集准确率三个维度考量模型。
Enhanced LSTM for Natural Language Inference_第21张图片

消融实验

Enhanced LSTM for Natural Language Inference_第22张图片可见,全连接网络层提取语义特征的能力不如双向LSTM
(25)可见,只使用语法树的结果与ESIM的使用不相上下,说明ESIM和语法树对文本间的关系推断标准类似。
但是训练一个语法树的特征需要40+小时,而ESIM只需要6个小时。

注意力可视化的实验

Enhanced LSTM for Natural Language Inference_第23张图片判断sitting与standing是冲突的,就是后面神经网络所需要做的了

论文总结

  • 深度挖掘了文本间的语义、关系特征。
    (双向LSTM->注意力交互 ->特征构造、拼接 ->双向LSTM ->特征压缩 ->输出预测)
  • 加入了文本的语法结构信息。

你可能感兴趣的:(深度之眼文本匹配,深度学习,自然语言处理)