【中文MRC】2019_IEEE_R-Trans: RNN Transformer Network for Chinese Machine Reading Comprehension

1 概述

动机

中文MRC任务需要分词,但是分词的话利用现有分词工具不可避免地会产生分词错误,从而对下游任务产生影响。

而分词问题,可以通过结合local and global context信息来解决(也就是说中文短语在不同的上下文中会有不同的意思),但由于已知的词嵌入比如GloVe、Word2vec是在英语语料上训练的,因此无法根context来产生一个单词的不同分布表示向量。因此,当务之急就是找到一个有效的word representation learning方法。
Chinese words比characters有更多的意思,所以这篇论文自己pre-train了在Chinese words上的 ELMo。

这篇论文挺简单好读的,但是感觉的确也就值IEEE,但是小论文似乎很适合发这种类型的,提供了一个简单粗暴的思路!

这个模型受启发于:QANet

数据与评估

Les MMRC(中文军事阅读理解数据集),这个数据集有span extraction回答,也有需要inference的回答;
精度:Rouge-L、BLEU-4

创新与贡献
  • 整合deep contextualized word representation 进词嵌入,减少中文分词工具的错误
  • 添加GRU 网络,来更好抽取global information
  • 做了一些网络修剪(network prune)来减少参数,提高训练和推理速度
  • 更关注中文的特性,来解决single-passage的CMRC任务——Les MMRC,DuReader是multi-passage

2 模型

【中文MRC】2019_IEEE_R-Trans: RNN Transformer Network for Chinese Machine Reading Comprehension_第1张图片

  • 输入层加入了ELMo encoder的嵌入,从而input embedding是三个embedding的结合
  • 添加GRU,(因为QANet的CNN不能很好处理sequential text)
  • Encoder Blocks是residual block,在depthwise separable convolutions后接transformer的self-attention层和ffn层
  • 计算出context-to-queryattention和query-to-context attention

3 实验

data pre-processing

  • passage处理的基本方法
    将一些特殊字符删掉把中文的标点符号和数字用英文和阿拉伯数字替代移除无效的数据
  • 修剪过长的文本到限制长度(定义最大长度为L)
    • 如果文章被切割,计算问题和段落的最长公共子串的相似性。越相似,段落分数越高。然后从中选出k个段落,并且将这些段落按照降序的方式排列组成一个新的文章。(也就是说打乱顺序了)。
      因为每一个段落的第1句话都是比较重要的,所以将每一个段落的第1句话加到处理过的passage当中。
    • 如果文章没有被切割的话,同样的使用上面的方法去计算问题和每一句话之间的最长公共子串的相似性,然后把最相似的t句话连接起来作为新的文章,此处不改变他们的顺序。
  • Answer labeling
    • 如果matches数量是1,那么直接label那个位置
    • 如果matches的数量多于1个,那么标记靠近passage和question的最长公共子串的开头或结尾的位置
    • 对于标签不规则的答案,计算最长公共子串长度大于答案长度70%的位置作为标记为答案
  • 因为passage的一部分没有label也和预测没啥关系,是可以prune的。
    因此如果答案的结束label位置没有超过L,后面的部分也可以prune掉;否则,可以随机阶段title到label开始的部分,然后把末尾label后面的超处长度的部分也移除

实验结果

【中文MRC】2019_IEEE_R-Trans: RNN Transformer Network for Chinese Machine Reading Comprehension_第2张图片
但是这个论文如何用英语ELMo来搞的contextualized word representation我还是有点蒙…咋就有英文了?如图:
【中文MRC】2019_IEEE_R-Trans: RNN Transformer Network for Chinese Machine Reading Comprehension_第3张图片

奇奇怪怪的知识增加了

  • MRC models中常用的word representation方法是结合word-level and character-level embeddings.
    这篇论文用到了3种嵌入结合的方式
  • 残差链接来减轻梯度爆炸和消失
  • 实验可以对比模型的:实验配置、参数设置(设置为一样比较嘛)、参数量、训练时间(这模型也就2个半小时)、inference时间
  • word-level embeddings能代表每个词的语义、而 character-level embedding 擅长处理 OOV(out-of-vocabulary) words.

你可能感兴趣的:(NLP,论文笔记)