文章链接:https://arxiv.org/pdf/2203.10741.pdf
代码地址:https://shuyangcao.github.io/projects/structure_long_summ
文档结构对于有效的信息利用至关重要。然而,将其有效地编码到现代Transformer体系结构中是一项挑战。在这项工作中,我们提出了HIBRIDS,它为将文档结构纳入attention分数的计算注入了层次偏差。我们进一步提出了一个新任务,即分层问题摘要生成,用于将源文档中的突出内容汇总为问题和摘要的层次结构,其中每个后续问题询问其父问题-摘要对的内容。我们还注释了一个新的数据集,包含6,153个问题摘要层次结构,标记在长长的政府报告上。实验结果表明,我们的模型在层次质量和内容覆盖率方面都生成了更好的问题总结层次,这一发现也得到了人工判定的证实。此外,我们的模型还改进了从冗长的政府报告和维基百科文章中生成长篇摘要的能力,这是通过ROUGE评分来衡量的。
概述了背景、模型内容、实验。
文档结构通过提供翔实的内容概述,方便了信息搜索、阅读理解和知识获取(Guthrie et al, 1991;Meyer等,1980年;泰勒和比奇,1984;Shavelson, 1974;反观,1988)。具体来说,对于摘要,它的效用是双重的:(1)源文档结构,如章节和段落,可以指导摘要的生成(Cohan等人,2018;Celikyilmaz等人,2018;张等,2019);(2)输出摘要中的结构,例如时间线(Shahaf等,2012;Wang et al, 2015)或方面(Angelidis和Lapata, 2018)也可以简化内容理解。
尽管如此,生成式摘要系统的SOTA,都构建在Transformer架构上(Zhang等人,2020;Lewis等人,2020),使用attention来估计成对token之间的关系,并在很大程度上忽略了文档结构。虽然他们也研究了分层编码(Zhang等人,2019;Balachandran等人,2021),但它需要训练大量额外的参数,导致内存占用增加,从而限制了输入的长度。至于输出,单个文档摘要的结构在很大程度上仍然是“扁平的”,如一个方面列表(孟等人,2021年)。我们认为,必须开发能够输出结构丰富的摘要的系统,以支持知识获取,这对于涵盖众多主题和不同细节的长文档尤其关键(Huang等人,2021; Kry ' science ' nski等人,2021年)。
这项工作包括两个主要目标:
(1)有效地通知摘要模型源文档的结构
(2)提出一个新的摘要任务,该任务产生分层组织的问题-摘要对,以促进信息利用
为此,我们提出了HIBRIDS(纳入文档结构的层次偏差)。我们设计了可学习的层次偏差,把它加入Transformer的注意力计算,根据token在文档结构中的相对位置调整注意力权重,灵感来自修改注意力计算的相对位置方法(rafel et al, 2020)。具体来说,我们利用文档的自然结构,即section级别,来构建文档结构树(图2)。每个可学习的偏差对应于一对section之间的关系,基于它们在结构树中的距离。直观地说,层次偏差会根据token对应的section在概念上的近/远程度来调整token之间的注意力权重,而且它们还能让总结器捕捉到远程的信息相关性以便更好地理解文档。
此外,我们设计了一个新的摘要任务,分层问题-摘要生成:给定一个文档,自动生成分层组织的问题和摘要,以布局不同级别的主题细节。如图1所示,每个问题关注需要输出摘要的文档的突出内容,其子问题关注相应摘要中的内容。这种层次结构不仅暴露了突出的主题及其关系,还允许读者快速识别出感兴趣的重点方面。我们的任务设计灵感来自自顶向下的知识学习过程:人们首先会问广泛的问题来获取一般知识,然后深入细节(Hintikka, 1981;Stede和Schlangen, 2004)。值得注意的是,由于没有带有此类注释的可用数据集,我们还标记了一个新的数据集——GOVREPORT-QS,它由基于GOVREPORT数据集的1714份报告的6153个摘要段落问题摘要(QS)层次结构组成(Huang等人,2021年)。每个总结段落包含4.07个问题,平均QS层次深度为2.26级。
【上图为图1:在参考摘要段落中为句子注释的问题-摘要层次结构。摘要模型经过训练,从文档生成问题-摘要层次结构,这表明对文档结构进行编码的重要性。例如,要从A1生成Q1.1和A1.1的后续问题-摘要对,就需要理解§3、§3.1和§3.4之间的内容以及亲子和兄弟姐妹关系。】
我们首先将HIBRIDS与使用结构感知架构(Rohde等人,2021年)和线性相对位置(rafel等人,2020年)的模型进行比较。我们使用两种设置对分层QS生成数据集进行了实验:(1)在给定第一个问题的情况下生成一个完整的层次结构,(2)在给定一个QS对的情况下生成后续问题。
自动评估表明,与比较相比,我们的模型产生了更好的后续问题和摘要,同时与参数比我们模型多2M个的层次模型(Rohde等人,2021年)相比,我们的完整摘要也实现了更好或可比的内容覆盖。
在人类评估中,HIBRIDS被认为可以构建更好的层次结构,需要更少的手动修改和更多相关的摘要。我们进一步测试了长文档摘要任务,使用GOVREPORT和一个新收集的数据集生成完整的摘要,该数据集由来自维基百科的约21k个高质量传记和摘要组成。再次,我们的系统摘要获得一致的高于比较的ROUGE分数,证明了HIBRIDS的普遍性。
文档结构感知摘要。结构信息长期以来一直被用来识别有总结价值的内容,包括由专家(Marcu, 1997)或自动解析器标记的话语结构(Hirao等,2013;Durrett等,2016;Xu等人,2020),以及从词汇链(Barzilay和Elhadad, 1999)或概率模型(Barzilay和Lee, 2004;Daumé III和Marcu, 2006)。文档的自然结构,如句子,已被用于预训练句子级编码器(Zhang等人,2019)或诱导它们之间的依赖关系(Liu等人,2019),以构建提取摘要系统。根据单独编码的段落,利用深度交流代理(Celikyilmaz et al, 2018)和段落间注意(Liu和Lapata, 2019)通过交换不同段落的信息来构建抽象摘要模型。Cohan等人(2018)使用节结构,基于字级编码器的输出设计了一种节级编码器,用于长文档摘要。然而,多级编码器更昂贵,因为它们引入了大量的参数,并在多层模型设计中添加了额外的填充。相比之下,HIBRIDS通过在标记之间的注意计算中引入一个新的偏差项来有效地通知文档结构模型,这只引入了少量的可学习参数。
长文档摘要还得益于文档结构信息的包含。例如,提取摘要方法被开发出来,以结合由多级编码器编码的节级和句子级信息(Xiao和Carenini, 2019),并通过分段滑动编码包括更长的上下文(Cui和Hu, 2021)。最近在总结长文档方面的工作集中在设计具有稀疏注意力的高效transformer,以端到端方式为长文档生成抽象摘要(Beltagy等人,2020;Zaheer等,2020年;黄等人,2021)。然而,它们都忽略了长文档的自然结构,例如节和子节。基于简单的设计,HIBRIDS可以无缝集成到任何高效的Transformer中,以合并文档结构信息。
已经研究了生成问答(QA)对,以促进文档中的信息查找,主要是为了生成可以用简短短语回答的问题(Du和Cardie, 2018;Liu等人,2020)。之前的工作主要集中在通过利用额外的QA系统(Sachan和Xing, 2018)、测量往返一致性(Alberti等,2019)或迭代优化问题(Qu等,2021)来提高QA对的相关性。Krishna和Iyyer(2019)研究了从给定段落生成QA对的两级层次结构。我们的工作至少在三个方面有所不同。首先,我们的目标是提供一个结构化的摘要,重点关注给定文档的突出内容,而不是像大多数QA数据构建中所做的那样,创建关于任何通用信息的问题(Rajpurkar等人,2016;
Choi等人,2018)。其次,我们的GOVREPORT-QS数据涉及用于在长文档中呈现内容的更丰富的层次结构,例如,23.6%的层次结构至少包含三个层次。我们的亲子对还涵盖了各种关系,例如,除了像Krishna和Iyyer(2019)中所做的那样询问具体细节之外,还添加解释或扩展主题。第三,我们的问题被设计成开放式的,并且基于给定的文档,因此我们的新任务更适合于摘要模型。
在本节中,我们首先介绍如何在文档结构树中定义相对位置。然后我们提出了HIBRIDS,它可以包含在encoder的self-attention或decoder的cross-attention中,根据标记的相对位置来调整注意分数。
我们首先构建一个文档结构树(图2,左),利用文档中节点和子节点(此后的节)的自然结构,这可以从我们从政府报告和维基百科文章中提取的实验数据中获得。然后,我们用两种基于树的度量方法在两个不同的部分(例如Sx和Sy)中捕获成对的token x和y之间的相对位置。
(1)PathLen(x,y):从Sx到Sy的最短路径的长度
(2)LvlDiff(x,y):x与y在树中深度(到root的距离)的差异
PathLen被设计成非对称的,以捕获内容顺序,也就是说,如果Sx在文档中出现在Sy之前,它的值为正,反之亦然。图2显示了示例。
【上图为图2:示例路径长度和级别差异(右)编码相对于文档树结构(左)的相对位置。每个QUERY/KEY表示属于同一个section的那一堆tokens。我们强调重要的section关系:节点本身、亲子关系、祖先后代关系(亲子关系除外)和兄弟姐妹关系。从§1(等级1)到§1.2(等级2),等级差为-1,路径长度为1,因为§1出现在§1.2之前。从§1.2到§1,两个数字的符号都颠倒了,即(1,-1)。】
HIBRIDS的设计基于这个树矩阵查找表B[·,·],其中的每一项对应一个由pathlen和lvldiff定义的可学习层次偏差,然后使用该偏差对不同部分的token进行注意力计算。每个头维护自己的查找表B。
我们首先将HIBRIDS应用于Transformer encoder的self-attention计算,把它叫做HIBRIDS-ENC。对于encoder, 给定i号查询qi和由输入的n个token的key组成的矩阵K,HIBRIDS针对第i个查询,为每个键添加一个bias,以进行attention计算:
其中,bias项的计算方式是查表:
然后还在decoder的cross-attention里也引入了HIBRIDS,称为HIBRIDS-DEC,通过与源文档建立更好的对齐来鼓励更一致的生成。与上面aij的计算公式类似,在生成的第t步,通过偏差btj调整的第j个token的cross-attention权重,但有修改如下:我们将btj计算为所有输入token(以l为索引)到第j个token的层次偏差的加权和。权重取的是decoder的倒数第二层中第t个generated token和第l个输入token的across-attention score。这被证明可以更好地捕获单词对齐(Garg等人,2019;曹和王,2021a)。btj仅应用于decoder的最后一层,公式如下,其中,acrstl是decoder倒数第二层的第t步生成中到第l个输入token的across-attention score。
理解参考:举个例子讲下transformer的输入输出细节及其他 - 知乎 (zhihu.com)
选择关系后的HIBRIDSs:我们进一步考虑只保留树中的显著关系,以减少要学习的参数数量,包括self(同一节)、parent-child、祖宗-后代、兄弟姐妹、文本中的邻居,以及同一顶层节中的邻居(例如,§1.1.1和§1.2均在§1中)。总的来说,它们占所有关系的21.6%。改进后的HIBRIDSs也可以应用于编码器和解码器。
引入了一个新的摘要任务:给定一个文档或文档的几个部分,我们的目标是生成按层次结构组织的问题-摘要(QA)对。如图1所示,这个QS层次结构在多个级别上为主题布局细节,每个子QS对扩展其父QS对的内容。我们的任务的动机来自于人类如何自上而下地学习知识,即先获得一般知识,然后探索细节和深入内容(Hintikka, 1981)。这种层次结构积极地突出了文档结构,以进一步促进内容的参与和理解(McKeown等,2009)。
(主要是说数据是咋做的,来源是GOVREPORT摘要数据集,里面是政府的报告和摘要,很长,源文档平均长度为9409,摘要平均长度为553,他找倒霉大学生干的)
我们首先基于从GOVREPORT数据集中选择的文章和相应摘要(Huang等人,2021年),用分层的QS对注释了一个新数据集GOVREPORT-QS。由于这些文档和摘要平均分别有9409和553个单词,直接用QS层次结构注释完整的文档是一个挑战。为了解决这个问题,我们要求注释者为选定的摘要段创建分层问题,并只允许他们从摘要段中选择完整的句子作为相应的答案。创建的每个问题都应该通过它的答案来充分解决,答案不应该包含与问题无关的信息。对于后续问题,鼓励他们问一些具体的细节,或者提出一些可以从父母那里得到详细总结的问题。注释者还被要求构建尽可能多的层次结构。图1演示了在注释可再生能源发展报告时如何创建分层问题以及如何选择回答句。
为了覆盖更多的文档并避免收集肤浅的层次结构,每个摘要段落都由一个注释者进行注释,我们根据启发性规则选择高质量的摘要段落进行注释,例如,每个段落应该至少有3句话和70个单词,并且根据提取片段的归一化密度(Grusky et al, 2018)衡量有足够的抽象性水平(阈值< 0.15)。注释说明和段落选择的细节见附录A。
我们聘请了11名以英语为母语的大学生进行多轮标注任务。在每一轮结束后向每个注释者提供反馈。在收集所有注释后进行最后定稿阶段,要求4名高质量的注释人员纠正错别字,删除事实性问题,并在检测到错误时对层次结构进行微小调整。
GOVREPORT-QS统计数据。总共有6,153个摘要段落注释了25,055个QS对。平均而言,每个总结段落创建4.07对QS,跨越2.26个等级。70.5%和23.6%的段落注释了两级和三级问题,使我们的数据集成为研究QS层次结构生成、以查询为中心的摘要和问题生成的有价值的基准。
然后,QS层次结构就成为了系统应该生成的东西,我们通过将注释过的摘要段落重新映射回源文档中的章节,来构建QS层次结构生成系统的输入。
具体来说,我们根据基于bert、基于单词重叠和基于实体重叠的相似性组合将每个摘要句与文档段落匹配(详见附录a)。匹配段落所属的所有节以及它们的祖先节的标题被组合在一起,作为生成相应QS层次结构的系统输入,如图1所示。匹配的节的平均长度为2029,比许多标准摘要基准测试中的文档都长。
我们在三个不同的任务中评估HIBRIDS的输出结构。
任务1:QSGen-Hier。基于GOVREPORTQS,我们首先对一个设置进行试验,在这个设置中,给定对齐的文档部分和一个根问题,预计模型将生成一个摘要,该摘要处理该问题以及层次结构的其余部分。为了使Transformer顺序解码器的QS层次结构线性化,我们在深度优先遍历之后连接它的QS对。在每个QS对之前插入特殊的标记,以表示其级别与前一个QS对的变化:[L↓],[L↑],和[L-]分别表示级别已增加、减少和未改变。例如,图1中的样本层次结构可以表述为:“A1 [L↓]Q1.1 A1.1 [L-] Q1.2 A1.2 [L↓]Q1.2.1 A1.2.1”。在这个任务中,我们将样本分为训练/开发/测试,大小为4,878/644/631。
任务2:QSGen-ChildQ。接下来,我们利用GOVREPORT-QS进行后续问题生成:给定一个QS对和对齐的文档部分,我们的目标是生成所有子问题。通过此设置,可以从图1中的示例创建两个示例。第一个以“Q1 A1”和对齐部分作为输入,生成“Q1.1 Q1.2”,另一个读取“Q1.2 A1.2”和对齐部分,生成“Q1.2.1”。在这里,我们构建了大小为7,157/958/942的训练/开发/测试分段。
任务3:完整的摘要生成。我们还在GOVREPORT上进行了实验,以测试HIBRIDS为长输入生成长格式摘要的能力。我们在训练/开发/测试集中使用17,516/974/973个样本的原始数据分割。我们进一步从WikiProject Biography2 (WIKIBIOSUM)中收集一个新的数据集来执行传记摘要。在收集了所有可用的传记后,我们保留那些至少具有两个级别的节层次结构的传记,并保留所有级别的节结构。对于每一篇文章,第一节之前的段落被视为目标摘要,其余部分则成为输入。最终的数据集有20833对,分为18,751/1,041/1,041个样本,用于训练/开发/测试集。WIKIBIOSUM的输入和输出的平均长度分别为3478和1266。WIKIBIOSUM数据收集和筛选程序的详细信息见附录B。
我们将QSGen-Hier、QSGen-ChildQ和WIKIBIOSUM上的完整文档摘要的最大输入长度设置为5120。在GOVREPORT上,上限设置为16,384。
评价指标:我们使用ROUGE (Lin, 2004)进行总结评估,并额外报告高达4克的BLEU (Papineni et al, 2002)来评估生成的问题。
受依赖分析中的标记附件分数的启发,我们提议将生成的QS层次结构与参考层次结构进行对比,计算F1分数如下所示(Zeman等人,2017年):我们首先将每个生成的QS对映射到它们的摘要之间ROUGE-1和ROUGE-2分数之和最高的参考QS对。然后,在生成的层次结构中考虑两个具有亲子关系的QS对。只有当它们映射的QS对在参考层次结构中具有亲子或祖先后代关系时,才会建立匹配。然后根据匹配结果计算精度。我们进一步根据在父摘要和子摘要上计算的ROUGE-1和ROUGE-2分数的总和对每个匹配进行加权。加权召回率和F1的计算方法类似。
对比:这项工作中的所有任务都需要长时间的输入。为了实现高效编码,我们使用窗口大小为1024的LONGFORMER (Beltagy等人,2020年)作为基础模型,并针对所有系统和比较对其进行微调。
我们首先通过添加特殊令牌来编码文档结构来考虑比较:(1)SECTOK在每个部分的开始插入一个特殊令牌[SEC]。(2) LVLSECTOK进一步使用不同的标记在不同级别上区分节(例如,§1中的[SEC-L1],§1.1中的[SEC-L2])。
基于LVLSECTOK,我们构建了所有HIBRIDS变体和下面列出的其他比较:
(懒得写了后面)