2019-EMNLP-Extractive Summarization of Long Documents by Combining Global and Local Context

摘要

提出一个针对长文档的抽取式形成摘要的模型,将整个文档的全局上下文和当前主题中的局部上下文结合起来。在两个科学论文集Pubmed 和arXiv上对模型进行评估。在本文中,在决定一个句子是否是摘要的一部分时,同时捕获全局(整个文档)和局部上下文(例如,段落/主题)的分布式表示。

主要贡献有:

(1)使用LSTM-minus来捕获局部上下文向量。LSTM-minus是一种学习文本跨度的embedding的方法,在依存分析中获得很好的结果。LSTM-minus相对于分层结构在获取上下文的任务中,有更少的参数,更快的训练,更不容易过拟合。
(2)在长文本取得好结果。
(3)为两个数据集创建抽取标签。

模型:

在该模型中,按顺序遍历句子,模型由三个部分组成:句子编码器、文档编码器、句子分类器。

A、Sentence Encoder

句子编码器的目标是把词嵌入序列映射成固定长度的向量。有很多方法可以实现这个任务,CNN、RNN等等,有实验结果表明,平均词向量(Average Word Embedding)在不同领域和摘要架构中会比CNN、RNN效果好。在该模型中,使用平均词向量作为句子编码器,即把词向量的平均作为句子向量:
在这里插入图片描述

B、Document Encoder

在文档级上,使用GRU,将输入到双向GRU中每个句子t的前向和后向的隐藏状态的连接作为句子表示:
在这里插入图片描述
句子表示不仅仅表示现在的句子,还覆盖了该句子前后句子的上下信息。文档表示提供了整个句子的全局信息,连接前向和后向最后一个时刻的隐藏状态,作为文档表示:
在这里插入图片描述

C、Topic segment representation

为了每个句子的局部上下文信息,即句子所属的主题段的信息,使用LSTM-Minus。每个主题段被表示为该主题的开始和结束位置的隐藏状态相减。
在这里插入图片描述
f5、f2表示第5和第2个句子的前向隐藏状态,b3和b6表示第3和第6个句子的后向隐藏状态,片段t的主题片段表示lt计算为:
2019-EMNLP-Extractive Summarization of Long Documents by Combining Global and Local Context_第1张图片
startt、endt是主题t的开始和结尾的索引,ft和bt分别表示前向和后向主题段表示。lt作为主题段t的表示,在开始和结束都用零向量填充隐藏状态,以确保索引不会超出界限。

Decoder

一旦获得句子表示,对于主题段(局部上下文),文档表示(全局上下文),结合三个信息去做后的预测pi,决定句子是否应该包含在摘要中。有两种结合方式:

1、Concatenation

在这里插入图片描述

2、Attentive context

由于局部上下文和全局上下文都是给定句子的上下文信息,因此使用注意机制来确定每个上下文向量的权重。2019-EMNLP-Extractive Summarization of Long Documents by Combining Global and Local Context_第2张图片
假设句子i在主题t中,contexti是每个句子i的加权上下文向量。然后是最后一个多层感知器(MLP),后面是一个sigmoid激活函数,表示选择每个句子是否被选择为摘要句。
在这里插入图片描述
2019-EMNLP-Extractive Summarization of Long Documents by Combining Global and Local Context_第3张图片

损失函数

2019-EMNLP-Extractive Summarization of Long Documents by Combining Global and Local Context_第4张图片

实验结果

2019-EMNLP-Extractive Summarization of Long Documents by Combining Global and Local Context_第5张图片

你可能感兴趣的:(自动文摘阅读笔记,自然语言处理,深度学习,机器学习)