论文笔记:Generating Wikipedia by Summarizing Long Sequences

一、简介

问题:

multi-document abstractive summarization,where the input is a collection of related documents from which a summary is distilled。

abstractive 与 extractive

extractive summarization:抽取文本句子作为 summary。缺点是表达能力有限,好处是句子都是符合语法的。
abstractive summarization:生成新文本作为摘要。缺点是句子可能只是单词的组合,从语法上看狗屁不通。

输出输出

输入:wiki 文章的标题 T ( a i ) T(a_i) T(ai) + 非wiki文章(该wiki的引用文章 ( C i C_i Ci) +以该标题google到的文章( S i S_i Si))。
输出:对应 wiki 文章( a i a_i ai

二、模型

由于 ( C i , S i ) (C_i,S_i) (Ci,Si) 可能非常大,超出了硬件限制,模型分成了两部分:首先使用 extractive summarization 模型抽取输入的一个子集,然后用这个子集来训练 abstractive 模型。这与人类做摘要类似:先高亮出文章的重要句子,然后基于这些句子给出摘要。

extractive stage

对于每一篇文章 a i a_i ai , 首先将输入中的段落重新计算 rank,得到段落列表 { p R i ( j ) i } \{p_{R_i(j)}^i\} {pRi(j)i} R i ( j ) R_i(j) Ri(j) 表示 ( C i , S i ) (C_i, S_i) (Ci,Si)的第 j j j个段落 p j i p_j^i pji的 rank。然后取前 L L L 个 tokens 作为第二阶段的输入。
文章共用了五种抽取模型:

  1. Identity:a trivial extractor,直接使用原输入的前 L L L 个 tokens.
  2. tf-idf:consider ranking paragraphs as documents in a query retrieval problem, where the query is the title of the article。基于 { p j i } \{p_j^i\} {pji}对文章标题 T ( a i ) T(a_i) T(ai) 计算tf-idf:
    在这里插入图片描述
    Where N w , N d N_w, N_d Nw,Nd, and N d w N_{dw} Ndw are the count of the word in the document, total number of documents, and total number of documents containing the word, respectively.
  3. TextRank:一种类似 PageRank 的基于图的算法
  4. SumBasic:根据词频给词赋分,继而给句子赋分。选出得分最高的句子。选出句子后重新计算词频并重复这个过程,直到达到期望的摘要长度。
  5. cheating:
    在这里插入图片描述

abstractive stage

{ p R i ( j ) i } \{p_{R_i(j)}^i\} {pRi(j)i} 按 rank 排序后拼接,然后接上 T ( a i ) T(a_i) T(ai) 前缀作为 raw input,然后进行 tokenize:
在这里插入图片描述
截取前 L L L 个 tokens 作为 input sequence:
在这里插入图片描述
abstractive 模型记作 W W W,即 a i = W ( m i L ) a_i = W(m_i^L) ai=W(miL)。将这个问题当成是从长序列( L L L最大取11000)生成短序列(一般少于500)的问题。文章修改了 transformer, 去掉了 encoder:
论文笔记:Generating Wikipedia by Summarizing Long Sequences_第1张图片

你可能感兴趣的:(笔记,摘要生成)