文本自动摘要

文本自动摘要(自动文摘)Text Summarization 指自动地从原始文档中提取摘要,摘要是全面准确地反映该文档中心内容的简单连贯的短文。

应用

学术文献、 会议记录、 电影剧本、学生反馈、软件代码、 直播文字

评价指标

人工评价

时间成本太高,效率太低

自动评价

给定参考摘要作为标准答案,通过制定一些规则来给生产的摘要打分。

ROUGE 系统(Recall-Oriented Understudy for Gisting Evaluation):将待审的摘要和参考摘要的 n 元组共现统计量作为评价依据,通过一系列标准进行打分。

包括 ROUGE-N (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4), ROUGE-L, ROUGE-W,ROUGE-S, ROUGE-SU

方法

抽取式摘要 Extraction-based summarization

从原文中找到一些关键的句子,组合成一篇摘要。

  1. 基于特征

    统计句子包含的关键词数量、关键词位置、句子长度、句子位置等。

    方法:TextTeaser

    论文:

    • (IBM Journal 1958) The Automatic Creation of Literature Abstracts

    • (Journal of the ACM 1969) New Methods in Automatic Extracting

    • (SIGIR 2001) Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis

  2. 基于图排序

    将文档的每句话作为节点,句子之间的相似度作为边权,构建图模型,计算每个句子的得分。

    方法:LexRank, TextRank

    论文:

    • (JAIR 2004) LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

    • (EMNLP 2004) TextRank: Bringing Order into Texts

  3. 神经网络

    方法:Attention Model, RNN, CNN

    论文:

    • (ACL 2016) Neural Summarization by Extracting Sentences and Words

综合式摘要 Abstractive Summarization

理解原文并用简洁文本表达。

方法:

  • Encoder-Decoder 框架

    Encoder 是将输入序列表示成一个带有语义的向量,通常使用 LSTM、GRU 等 RNN 模型,复杂的也有 BiRNN、BiRNN with LSTM、BiRNN with GRU、多层RNN等模型。

    Decoder 是以 Encoder 输出的向量作为输入,并输出目标文本序列,本质上是一个语言模型,通常使用 Recurrent Neural Network Language Model (RNNLM),同样也会用 LSTM、GRU 等模型。

  • Attention Mechanism

    Encoder 输出的向量更多地表示输入序列中最后一个单词的意思,因此加入注意力机制有助于该向量更多地关注其中重要的单词。

  • 整体思路

    1. 将自动文摘问题构造成 seq2seq 问题,一种做法是将某段文本的第一个句子作为输入,headlines 作为输出,变成 headlines generative 问题。

    2. 选择大规模语料库作为数据集。

    3. 选择合适的 Encoder。

    4. 选择合适的 Decoder。

    5. 设计合适的 attention model。

    6. 设计 copy net。由于测试时部分词汇可能不在训练的单词表里,因此需要用 copy net 将输入的词 copy 到最终输出。

论文:

  1. (EMNLP 2015) A Neural Attention Model for Abstractive Sentence Summarization

  2. (ICLR 2018) A Deep Reinforced Model for Abstractive Summarization

你可能感兴趣的:(自然语言处理)