Neural Summarization by Extracting Sentences and Words阅读

通过提取句子和单词的神经摘要

摘要

传统的提取摘要方法严重依赖于人性化特征。在这项工作中,我们提出了一种基于神经网络和连续句子特征的数据驱动方法。我们开发了由分层文档编码器和基于注意力的提取器组成的单文件摘要的综合框架。此架构允许我们开发不同类别的摘要模型,可以提取句子或单词。我们在含有数十万个文档摘要对的大规模集合上训练我们的模型。两个摘要数据集上的实验结果表明,我们的模型获得与现有技术相当的结果,而无需访问语言注释。
I Introduction
迄今为止大多数据提取方法都基于人工特征。这些包括句子位置和长度等表面特征,标题中的单词,存在适当的名词,内容特征,如文字频率,以及动词等。句子通常被当做是这些特征的强度的分数。已经使用了几种方法,以便选择从二进制分类器的摘要句子,隐藏的Markov模型,基于图形的算法,AndInteGerlinear编程。
在这项工作中,我们提出了一种基于神经网络和连续句子特征的数据驱动的方法进行摘要。最近对序列转换神经网络架构进行了兴趣的兴趣激增,例如机器翻译,问题应答和句子压缩等NLP任务。这些方法的核心是循环神经网络搭建的编码解码模型。编码器将源序列读入解码器生成目标序列的连续空间表示列表中(The encoder reads the source sequence into a list of continuous-space representations from which the decoder generates the target sequence)。解读期间,注意机制是异屋胺用于解码过程中的影响。注意机制通常用于在解码期间定位焦点区域。我们开发了单一文件摘要的一般框架,可用于提取句子或单词。
我们的模型包括基于神经网络的分层文档读取器或编码器以及基于关注的内容提取器。读者的作用是基于其句子及其组成词来得出文档的含义表示。我们的模型采用神经注意力的变体来提取句子或单词。与以前的工作相反,注意力用于将编码器的隐藏单元混合到传播到解码器的向量中的中间步骤,我们的模型将注意力直接应用于输入文档作为输出摘要的句子或单词。这些代表构成了文档表示,其捕获了包含最小压缩的本地和全局句子信息。
将神经网络模型应用于提取摘要的一个绊脚石是缺乏训练数据,即用句子(和单词)的文件标记为摘要值。通过以前的摘要和阅读理解的启发,我们可以检索数十万新闻文章和Dailymail网站的相应亮点。亮点通常出现为项目符号,简要概述了文章中包含的信息(见图1)。使用许多转换和评分算法,我们能够将亮点与记录内容匹配并构建两个大规模训练数据集,一个用于句子提取,另一个用于单词提取。以前的方法在几百个例子的范围内使用了小规模培训数据。
我们的工作涉及综述和神经序列建模的几个研究股。通过从源文档中提取单词来创建摘要的想法是在Banko等人中提出的。 (2000)将摘要视为类似于统计机器翻译的问题,并使用统计模型生成头条新闻以选择和订购摘要单词。我们基于Word的模型在精神中类似,但是,它通过连续表示操作,产生多句子输出,并共同选择摘要单词并将它们组织成句子。最近的几项研究(Kobayashi等,2015; Y Ogatama等,2015)根据训练有素的句子嵌入在无监督的优化范例之后执行句子提取。我们的工作还使用持续表示来表达句子和文件的含义,但重要的是更直接使用神经网络来执行实际摘要任务。
Rush等人。 (2015)提出了一种神经注意力模型,用于抽象句子压缩,这些模型是在一对标题和第一个句子中训练的。相比之下,我们的模型总结了文件而不是单个句子,产生多句子话语。主要的架构区别是我们的解码器从感兴趣的文档中选择输出符号而不是整个词汇表。这有效地帮助
我们回避难以在大词汇表下寻找下一个
输出符号,其中具有低频词和命名实体,其表示可能具有挑战性。古等人。 (2016)和Gulcehre等人。 (2016)在句子压缩和其他任务中提出类似的“复制”机制;它们的模型可以通过选择输入序列中的哪些子序列来容纳生成和提取,以便在输出中复制。
我们在两个数据集中自动(胭脂)和人类评估我们的模型:基准DUC 2002文件摘要语料库和我们自己的Dailymail新闻突出显示语料库。实验结果表明,我们的总结器实现了与采用手工业特征和复杂语言限制的最先进系统相当的性能。
II Problem Formulation
在本节中,我们正式定义本文中考虑的摘要任务。给定由一系列句子{s1,···,sm}组成的文件d和一个单词集{w1,···,wn},我们有兴趣在两个粒度的粒度下获得摘要,即句子和单词。句子提取目的是通过从D中选择j(j在这里插入图片描述
虽然用抽取式方法产生摘要,但需要相对较少的语言分析,所选句子也包含多冗余信息。应为该原因,我们也开发了一个基于单词抽取的模型去D中寻找单词的集合,它们的最佳排序形成摘要。ys =(w0 1,···,w0 k),w0i∈d。与句子提取相比,这是一个序列标记问题,这项任务占据了不去抽取摘要的中间地,可以展现出广泛的重写操作和提取摘要,展示无。我们将单词提取作为一种语言生成任务,具有限制原始文档的输出词汇。在我们的监督环境中,培训目标是最大化所生成的句子的可能性,这可以通过在其成分词之间执行条件依赖性来进一步分解:在这里插入图片描述在以下部分中,我们讨论了允许我们根据上述确定目标训练神经网络的数据引导方法。
3 Training Data for Summarization
数据驱动的神经摘要模型需要大量的文档语料库,标签指示摘要中应该在摘要中的句子(或单词)。到目前为止,这种数据集仅限于数百个例子,从而使用主要用于测试。为了克服训练的缺乏数据,我们采用类似于Hermann等人的方法。创建两个大型数据集,一个用于句子提取,另一个用于单词提取。
简而言之,我们从Dailymail中检索了数十万新闻文章及其相应的重点。重点(由新闻编辑创建)是真正的抽象摘要,因此不容易适合监督培训。要为句子提取建立训练数据,我们将基于其语义对应的摘要,近似于每个文档句子的标准标签。具体来说,我们设计了一个有规则的系统,该系统确定文档句子是否与突出显示匹配,并且应该用1(必须在摘要中)标记,否则用0.该规则考虑了文档中句子的位置,UNIGRAM和BIGRAM在文件句和重点之间重叠,在突出显示和文档句中出现的实体数量。我们通过Woodsend和Lapata(2010)创建的手动句子标签调整了9,000件文件的重量。当在来自来自相同数据集的316份文件中评估时,该方法获得了85%的精度,并且随后用于标记200k文档。每份文件中约有30%的句子被认为是值得的。
为了创建单词提取数据集,我们检查重点和新闻标题之间的词汇重叠。在所有重点单词(止排后)来自原始文档的情况下,文档 - 重点对构成有效的训练示例,并添加到单词提取数据集中。对于词汇(OOV)单词,我们尝试在新闻文章中找到一个语义上的替代品。具体而言,我们检查由预先训练的嵌入的邻居是否在原始文档中,因此构成了有效的替换。如果我们找不到任何替代品,我们会丢弃文档突出显示对。在此过程之后,我们获得了一个包含170k文章的单词提取数据集,再次来自Dailymail。
4 Neural Summarization Model
我们摘要模型的关键组成包括基于神经网络的分层文档读取器和基于注意力的分层内容提取器。我们模型的分层性质反映了从单词,句子,段落或甚至更大单位组成的文档生成的直觉。因此,我们使用反映相同架构的代表框架,并被发现全局信息和保留的局部信息。这种表示产生最小信息损失,并且灵活地允许我们应用于在更大的上下文中选择突出的句子和单词的神经注意力。在下文中,我们首先描述文档阅读器,然后介绍我们句子和单词提取器的详细信息。
4.1 Document Reader
阅读器的作用是从其组成句中导出文档的含义表示,每个句子被视为一系列单词。我们首先使用单层卷积神经网络(CNN)在句子级别获得具有最大最大池化操作的句子级别的表示向量。接下来,我们使用循环的组成句子的标准的递归神经网络去建立文档表示。 CNN在单词级别运行,导致获取句子级表示,然后以分层方式使用作为获取文档级表示的RNN的输入。我们描述了下面的文本读取器的这两个子组件。CNN在单词级别运行,导致获取句子级表示,然后以分层方式使用作为获取文档级表示的RNN的输入。我们下面描述了文本读取器的这两个子组件。
Convolutional Sentence Encoder
我们选择了一个卷积神经网络模型,用于代表句子。首先,单层CNN可以有效地训练(在模型中没有任何长期依赖性),其次,它们已成功用于诸如情感分析之类的句子级分类任务。d代表词向量维度,s代表一个由n个单词(w1,w2,…wn)组成的文档句,我们可以用密集矩阵W(n×d)来表示。我们的卷积由W和一个卷积核K(c×d)表示:
在这里插入图片描述
(3)代表第j个元素的第i个特征图,b为偏量。句子最后表示成:
Neural Summarization by Extracting Sentences and Words阅读_第1张图片
在实践中,我们使用多个特征映射来计算在每个内核宽度下匹配句子的维度匹配的功能列表。此外,我们应用具有不同宽度的多个内核,以获得一组不同的句子向量。最后,我们总结了这些句子向量,以获得最终的句子表示。CNN模型在图2(底部)中示意性地示出。在该示例中,句子嵌入具有六个维度,因此在每个内核宽度下使用六个特征映射。蓝色特征映射具有宽度两个,红色特征映射具有宽度三个。在每个内核宽度下获得的句子嵌入式以获得最终句子表示(由绿色表示)。
Recurrent Document Encoder
在文档级别,循环神经网络将一系列句子向量组成文档向量。请注意,这是一种在判断句子转换的句级捕获文档组织的简单化尝试。一个人可以将循环神经网络的隐藏状态视为偏向的列表,每个部分表示主要在给定前面的上下文上的相应输入句子上。这些表示构成了文档表示,其捕获了包含最小压缩的本地和全局信箱信息。
我们使用的RNN具有长的短期内存(LSTM)激活单元,用于在训练长序列时改善消失的梯度问题。给定文件d =(s1,···,sm),由ht表示的时间步骤t的隐藏状态被更新为:Neural Summarization by Extracting Sentences and Words阅读_第2张图片
其中W是一种学习权重矩阵。接下来,我们讨论一个特别的注意机制,用于提取句子和单词给定刚刚描述的循环文档编码器,从句子提取器开始。
4.2 Sentence Extractor
在标准神经序列到序列建模范式中,注意力机制用作中间步骤,以确定要关注的输入部分以产生下一个输出。相比之下,我们的句子提取器将注意力用于在阅读后直接提取显著句子。
提取器是另一个递归神经网络,它按顺序标记句子,不仅考虑它们是否个别相关,而且考虑它们是否相互冗余。文档编码器和语句提取器的完整架构如图2所示。Neural Summarization by Extracting Sentences and Words阅读_第3张图片
可以看出,下一个标记的决定是在考虑编码文档和先前标记的句子的情况下做出的。给定时间步长t处的编码器隐藏状态 (h1,· · · ,hm)和提取器隐藏状态(¯h1,· · · ,¯hm),解码器通过将其当前解码状态与相应的编码状态相关联来关注第t个句子:
Neural Summarization by Extracting Sentences and Words阅读_第4张图片
其中MLP是一个多层神经网络,输入是¯ht和ht的连接。pt-1表示提取者认为应提取和记忆前一句的程度(如果系统确定,pt-1= 1;否则为0)。
在实践中,训练和测试这样一个模型是不一致的。在训练过程中,我们知道前一句的真实标签pt-1,而在测试时pt-1是未知的,必须由模型预测。这种差异会导致预测误差快速累积,尤其是在序列标记过程的早期出现错误时。为了缓解这种情况,我们采用了一种课程学习策略(Bengio等人,2015):在训练开始时,当pt-1无法准确预测时,我们将其设置为前一句的true标签;随着训练的进行,我们逐渐将其值转移到预测的标签p(YL(t -1)=1|d)。
4.3 Word Extractor
与纯粹的序列标注任务-句子提取相比,词提取更接近于生成任务,在生成任务中,必须选择相关内容,然后流畅地、语法地呈现。对顺序标注模型的结构进行了一个小的扩展,使其适合于生成:该模型不是在每个时间步预测下一个句子的标签,而是直接输出摘要中的下一个单词。该模型使用分层注意力体系结构:在时间步长t,解码器轻柔地关注每个文档句子,随后关注文档中的每个单词,并使用softmax分类器计算下一个单词包含在摘要p中的概率(w0t= wi|d,w0 1,,w0t 1):
Neural Summarization by Extracting Sentences and Words阅读_第5张图片在上面的等式中,wi对应于输入文档中第i个单词的向量,而z、We、Wr、v、We0和Wr0是模型权重。模型架构如图3所示。
单词提取器可以看作是一个带有词汇约束的条件语言模型。在实践中,由于文档重点的词汇多样性和稀疏性,它不足以加强语法性。一种可能的改进是将提取器与神经语言模型配对,该模型可以在大量未标记的文档上进行预处理,然后在解码过程中与提取器联合调整。我们采用的一种更简单的替代方法是使用从文档中收集的n-gram特征来重新排列通过波束解码获得的候选摘要。我们将这些特征合并到对数线性重排序器中,该重排序器的特征权重通过最小错误率训练进行优化。
5…略

你可能感兴趣的:(文本摘要论文阅读,自然语言处理,acl,深度学习)