《异构图神经网络在文章摘要抽取中的应用》——论文阅读笔记

这是阅读的一篇复旦大学实验室的英文论文,论文主要做的工作是使用异构图为模型提取单文档、多文档的摘要,论文原文点这里 

论文背景

提取文档摘要是指从原始文档中提取相关的句子,并将其重新组织为摘要。提取文档摘要的一个关键步骤是学习跨句子关系,实现提取文章摘要的一种直观方法是将它们放在基于图形的神经网络中,该网络有一个更复杂的捕捉句子间关系的结构。目前现有的模型主要遵循编码器-解码器框架,比如说CNN、LSTM、Transformer等,但是现在这些RNNs模型难以捕捉远程语句之间的依赖关系,尤其是在长文档、多文档之中。为了解决上述的问题,该论文提出了使用一种基于异构图的神经网络提取文档摘要,它包含除句子之外不同粒度级别的语义节点。其中异构图是指可以有多种结点和边的图。

实现思想及整体方法

本片论文解决上述问题的关键在于如何构造这样的一种异构图可以反映远程语句之间的关系,其实现思路为:不是像传统仅仅在句子节点上构建图,而是引入更多的语义单元作为图中的额外节点来丰富句子之间的关系。这些附加的节点充当连接句子的中介角色,即每个附加的节点都可以被视为一个特殊的关系用于关联它们的句子。这样的话就可以根据这些关系赋予每一个语句一个权重,根据权重来进行选择哪些句子用于构成文章的摘要。比较简单的一种实现方法是使用单词作为语义单元,每一个句子都与它所包含的单词相连,所有的句子和句子之间以及单词和单词之间都没有直接的边,该篇论文也是基于该方法。对于多文档的摘要提取,传统的方法是将多个文档直接串接形成一个长文档用于识别,该论文的实现方法是改变模型,在原有的单词节点和语句节点之外,新建立文档节点,构成有三种节点的异构图进行处理,除了图模型上的不同,其余处理方法相似。

由于对多文档的处理除了改变图模型之外,其余的处理方式和对单文档的处理类似。所以接下来主要讲解如何对单文档提取摘要的。

其整体的实现方法分为三步:异构图的初始化、构建异构图的层、句子选择。异构图的初始化是指对异构图中单词节点、句子节点、边特征进行初始化,该工作是指将文档中的单词、语句等提取出来放入到特征矩阵中。构建异构图的层工作包括两步:从单词到语句的更新和从语句到单词的更新,其更新方法是对单词节点和语句节点设置权重值,如果一个单词节点和多个语句节点相连,该单词节点具有更高的权重值,同样一个语句节点和多个单词节点相连,该语句节点具有更高的权重值,该工作是所有工作的核心部分,其更新是通过迭代实现的,由于不断地对权重值进行更新,使得提取摘要的准确度更高。最后一步工作是句子选择,该工作是指将前两部工作处理得到的数据进行选取,选取出相应权值最高的语句组成该文档的摘要,其主要方法是对语句节点进行分类,也就是根据语句相应的权值进行排序,并且丢弃重复出现的语句,选取出排名靠前的语句组成摘要。

实验验证和结论

为了验证上述方法的正确性,作者进行了实验验证,其单文档的数据集有:CNN/DailyMail和NYT50,多文档数据集为Multi-News,用于验证上述方法对单文档和多文档提取文章摘要确实是比传统的方法准确度高,但是这里是存在一个疑惑的,虽然这种方法确实是证明比传统的模型准确度高,但是这种准确度的衡量标准是语句的一个衡量值,但是语句组合一块可能会有相互的干扰,虽然说在语句选取工作中进行了丢弃重复语句的操作,但是选取的语句仍然可能存在冲突,这种冲突可能会造成提取的摘要不是最优的。

除了验证对单文档和多文档的准确度之外,论文作者还进行了验证迭代更新的重要性,如果不对语句节点进行更新,其准确度会有一定的下降。

由上述的实验验证可知,使用异构图以及在图中引入更细粒度的语义单元——单词节点确实是有助于在句子之间建立更复杂的关系模型,该模型对文档中的语句以及单词确实有更高的准确率,而且证明了对于多文档提取摘要,在模型中加入文档节点相对于直接将多文档合并为长文档进行处理具有更高的准确率。

个人感悟和总结

该论文所完成的工作是在单文档以及多文档中提取抽取式摘要,为了解决传统模型难以捕捉远程语句之间的依赖关系的问题提出了使用异构图模型,建立文档节点-语句节点-单词节点(也可以扩展为文档节点-段落节点-语句节点-单词节点)的图模型,相对于传统的模型,通过引入更小的粒度(单词节点)使得模型在句子之间建立更复杂的关系,使得获得更高的准确度。

阅读完本篇论文,个人认为该论文提到的方法中最重要的思想是迭代,这也是该模型有用的原因,通过引入单词节点,可以判断一个单词是否出现了多次,如果一个单词出现了多次,就可以进行反馈,对语句节点的权重值进行更新,使得有更好的处理结果,这是在传统的序列模型中难以实现的。

存在的疑惑

阅读完本篇论文,有以下两点疑惑:

  1. 之前提到的,这种方法确实是证明比传统的模型准确度高,但是这种准确度的衡量标准是语句的一个衡量值,但是语句组合一块可能会有相互的干扰,虽然说在语句选取工作中进行了丢弃重复语句的操作,但是选取的语句仍然可能存在冲突,这种冲突可能会造成提取的摘要不是最优的。个人认为可以先进行预处理,得到一些摘要集,使得最优的摘要一定在该摘要集中,将摘要集中的摘要构建为摘要节点,然后再进行处理,最终选出最优的摘要。
  2. 相对于传统的模型,该方法构造的模型加入了单词节点,模型的复杂度有了非常大的提升,在训练模型时是否会耗时非常大。

你可能感兴趣的:(论文阅读,论文阅读,异构图,神经网络)