前段时间,因为工作需要,对智能摘要做了调研,主要集中在神经网络方法,主要方法是生成式 abstract方法,应用seq2seq生成居多。(因调研报告写在word中,将word中图片需要存起来再贴到文章中,太耗时,就省去图片了,本文具体用处可以作为智能摘要的引导文章,重点可看框架和参考文献,相应图片自行补齐吧)
文章主要分五个部分:
1. 开放数据
2. 智能摘要形式
3. 评价指标
4. 模型发展
5. 参考文献
一、开放数据集
DUC, Daily Mail/CNN, Gigaword, LCSTS(唯一中文微博标题生成语料)[1]
二、智能摘要形式
Extract (抽取式,优点:语法无误,缺点:压缩性不高,句子间衔接不够通顺)
Abstract(生成式,优点:通顺,压缩性高;缺点:重复,oov问题)
三、评价指标[2-4]
Rouge-1
Rouge-2
Rouge-L
BLEU
四、模型发展
本文调研主要是智能标题的生成,headline形式对语义压缩要求较高,一般应该使用Abstract形式,故本文调研主要集中在神经网络在Abstract生成中应用
4.1 神经网络在Extract 形式的发展
a) Extract模型分类算法
SummaRuNNer便是一个典型的文本筛选网络[7],本文将文本摘要重要句子提取问题,变为一个分类问题(二分类),提取的句子为一个类型,不提取的句子为另一个类型。这种监督学习方法,需要标注,作者在此提出了免人工标注的一种近似方法,即根据rouge值得变化,没增加一个句子看rouge是否有变化,有标为提取句子。此处也使用了分层文本分类方法,分别是word层和sentence,两层均为双向rnn形式。达到了一个start of art的分数。
b) CNN的形式进行文章句子筛选[6]
本文使用CNN进行文档筛选的建模,首先使用CNN建立一个无监督学习的CNNLM语言模型,该语言模型使用NCE方法训练,通过该模型的训练可以将句子表示成一个稠密的向量,然后再使用作者的divsect方法进行文本筛选,筛选出的结果,当时状态下最好。
c)分层抽取的形式, CNN + LSTM综合方法,适用于长文本。[5]
文中作者通过cnn对句子进行压缩,变成稠密向量,然后将各个句子送入一个lstm,再利用基于attention的lstm进行每句话的分类,通过训练交叉熵获得参量变化。
4.2 Abstract 形式的发展
该形式的Abstract形式均使用 Seq2Seq框架,但细节上有变化
4.2.1 Encoder的变化
BOW、 CNN、 RNN、分层RNN等
4.2.2 Attention
soft Attention、分层attention、增加抑制重译信息的attention
4.2.3 Decoder
Feed Forward Neural Language Model、RNN(Beam Search, Greedy search)
4.2.4 具体问题
OOV问题(处理方法:ignore,copy,mapping)
重复词问题(coverage)
较长文体(引入分层encoder机制)
句意压缩问题(引入MRT Rouge作为训练标准)
4.2.5 Abstract模型发展
a) 2015 Rush首先提出使用神经网络进行模型生成[8],该方法达到一个当时start of art的精度。Encoder 使用了,BOW,CNN, Attention 方法, decoder使用了 Feed Forward Neural Language Model
b) 2016 Rush 的学生在Chopra [9]在此基础上 encoder使用CNN进行压缩,并且使用了Attention方法,解码阶段引入了RNN,该模型在Rush的基础上又有了进一步提升。
C) 2016年 Nallapati[10] 使用 seq2seq的rnn进行文本摘要生成,使用了分层RNN,RNN分别考虑了词层面和句子层面,并且分层RNN均使用了Attention形式,在Embedding的时候,计入了文本特征,TF ,IDF,命名实体及标注信息等。在考虑OOV问题时,引入了Copy机制。同时本文也制造了一个相关的较大数据集 CNN/Daily Mail
d)针对OOV问题 哈工大和方舟实验室使用了COPYNET[11]
e)为解决OOV和重复问题,google的文章引入了 pointer network和 coverage(神经翻译机)来解决上述问题达到较好效果[12]
f)相对传统RNN 的训练使用的是MLE,因为评价标准是rouge,但训练目标函数却是MLE,存在偏差。因此Ayana使用MRT方法,以rouge-1作为优化手段,较传统的方法有较大提升[13]
4.3 Extract 和Abstract结合的形式[14]
2018 Wan-Ting Hsu使用seq2seq网络分层网络进行重要abstract的筛选,重点考虑召回率,然后再在提取摘要的基础上生成新的通顺的摘要,该方法达到了新的高度。
首先使用预训练的抽取式网络进行abstract的抽取,然后再进行encoder 和decoder的使用生成新的abstract,并且在训练的时候将预训练的网络loss function加在一起进行微调,extract summarization也达到更好的效果。
模型中代价函数考虑了四项:摘要不一致性、coverage、还有extract的loss,以及Pointer-generator network生成模型的MLE 代价项。
4.4 和强化学习结合的Abstract结合的形式
作者此处使用policy gradient 的强化学习,因该方法可以适用于离散形式(目前强化在自然语言处理中和policy gradient结合较多,也有其他形式,但进行了离散的近似处理)。
作者基本的模型还是seq2seq模型,加入了注意力机制,并使用了抑制重译的方法(上一步译文中选中的word进行惩罚),并对于生僻字和oov问题使用了copy机制的 pointer network网络。 对于强化学习中目标函数考虑了rouge和maximum likehood结合的形式
4.5 和GAN结合的Abstract结合的形式
Discrimator 是CNN形式,通过文本匹配筛选匹配进行鉴别,相应的目标函数为:
Generator 是seq2seq形式的构型,其目标函数包括 policy gradient的loss 和 MLE的loss
参数更新使用policy gradient方法进行更新
五、参考文献
[1] Baotian Hu.2016.LCSTS: A Large Scale Chinese Short Text Summarization Dataset.
[2] Mahak Gambhir.2016.Recent automatic text summarization techniques-a survey.
[3] Mehdi Allahyari.2017.Text Summarization Techniques: A Brief Survey.
[4] Laxmi B. Rananavare.2017.An Overview of Text Summarization.
[5] Jianpeng Cheng.2016.Neural Summarization by Extracting Sentences and Words.
[6] Wenpeng Yin.2015.Optimizing sentence modeling and selection for document summarization.
[7] Ramesh Nallapati.2016.SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents.
[8] Alexander M. Rush.2015.A Neural Attention Model for Abstractive Sentence Summarization.
[9] Sumit Chopra.2016.Abstractive Sentence Summarizationwith Attentive Recurrent Neural Networks.
[10] Ramesh Nallapati.2016.Abstractive text summarizationusing sequence-to-sequence rnns and beyond.
[11] Jiatao Gu.2016.Incorporating Copying Mechanism in Sequence-to-Sequence Learning.
[12] Abigail See.2017.Get To The Point: Summarization with Pointer-Generator Networks.
[13] Ayana.2016.Neural Headline Generation with Sentence-wise Optimization.
[14] Wan-Ting Hsu.2018.A Unified Model for Extractive and Abstractive Summarization using Inconsistency Loss.
[15] Romain Paulus.2017.A deep reinforced model for abstractive summarization.
[16] Linqing Liu.2017.Generative adversarial network for abstractive text summarization.