Enhanced LSTM for Natural Language Inference-学习笔记

Enhanced LSTM for Natural Language Inference

  1. 自然语言推理(NLI: natural language inference)问题:即判断能否从一个前提p中推导出假设h,简单来说,就是判断给定两个句子的三种关系:蕴含、矛盾或无关。
  2. 论文中的自然语言推理网络由以下部分组成:输入编码(Input Encoding ),局部推理模型(Local Inference Modeling ),和推理合成(inference composition)。
  3. 若有两个句子a=(a1,...,ala) 和 b=(b1,...,blb), 其中a为前提,b为假设。ai和bj都是l维的向量,可以由提前训练好的词向量进行初始化,并且由分析树(parse tree)进行组织。
  4. input encoding使用 BiLSTM 分别学习a 和 b 的词与上下文信息,得到新的向量表示:随后会用BiLSTM来进行推断的合成,从而进行最后的预测。
  5. BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。这两个LSTM在每个时间步生成的隐藏状态被连接一起,以表示这一时间步以及它的上下文。LSTM和BiLSTM在自然语言处理任务中都常被用来建模上下文信息。通过BiLSTM可以更好的捕捉双向的语义依赖。(https://www.jiqizhixin.com/articles/2018-10-24-13)
  6. local inference modeling使用软对齐的方法 (soft alignment or soft attention)。
  7. treeLSTM: 语法树的结构帮助收集短语和从句之间的局部信息。(HIM才做,ESIM不做)
  8. Tai等人2015年提出了Tree-LSTM模型,将序列的LSTM模型扩展到树结构上,即可以通过LSTM的忘记门机制,跳过(忘记)整棵对结果影响不大的子树,而不仅仅是一些可能没有语言学意义的子序列。
  9. 要想做局部推断,必须要把两个句子的子部分做一定程度的对齐(严格对齐或者软对齐),这里是使用句子间对齐(inter-sentence attention)。
  10. Attention机制的实质其实就是一个寻址(addressing)的过程。注意力机制可以分为三步:一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。
  11. 软性注意力机制(soft Attention):注意力分布)可以解释为在上下文查询q时,第i个信息受关注的程度,采用一种“软性”的信息选择机制对输入信息X进行编码为:,软性注意力机制有两种:普通模式(Key=Value=X)和键值对模式(Key!=Value)。
  12. 硬性注意力有两种实现方式:(1)一种是选取最高概率的输入信息;(2)另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。
  13. ESIM在inter-sentence attention,就是soft_align_attention,这一步中让要比较的两句话产生了交互。
  14. 使用torch.cat((A,B),dim)时,除拼接维数dim数值可不同外其余维数数值需相同,方能对齐。

 

 

你可能感兴趣的:(论文笔记,自然语言处理,人工智能)