PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

作者 :加拿大哥伦比亚大学,艾伦人工智能研究所,华盛顿大学

Abstract

模型名字:PRIMERA

用途:多文档表示预训练模型 ,用于Summarization

预训练目标:跨文档连接和聚合信息

模型结构:encoder-decoder 简化连接输入文档的处理

验证数据集:3个不同领域6个多文档摘要数据集

实验过程:零样本,少样本和全监督

结果:比当前state-of-the-art数据集好很多

Introduction

当前热门方法:

  • 基于图的多文档
  • GNN连接文档信息,层级信息
  • 单文档表示,然后再聚合
  • 缺点:当下都很少利用多文档信息

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第1张图片

我们的做法:

提出一种简单预训练方法,减少了对大规模fine-tune数据的需要和特点数据集架构的需求。

预训练目标:

原来 GSG(Gap Sentence Generation)mask 几个句子,解码时按顺序恢复。

实体金字塔 Entity Pyramid :Mask 整个cluster中 salient 句子,鼓励跨文档查找信息汇总到一个摘要中
PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第2张图片

contribution

  • PRIMERA,第一个针对多文档输入的预训练模型
  • 提出Entity Pyramid,选择聚合salient information
  • 结果比当前state-of-the-art好很多,在零样本和少样本下表现好

Model

如何最小化特点结构数据集

如何mask句子,捕获entity pyramid

input structure

将多文档连成一个序列,使用longformer处理

  • 将多个文档连接成长序列(如何解决transformer宽度问题,速度效率如何)

  • 由于级联序列很长,使用Longformer ( LED)

  • LED模型 使用local+global attention机制,同时cross attention 使用full-attention,

    文档分隔符

Pretraining objective

其他general 摘要模型的预训练任务

  • PEGASUS 天马 GSG (Gap Sentence Generation) 预测被mask的句子
  • 这里也是用GSG,不过把不同文档的sent-mask的句子连接作为为摘要来尝试生成

如何选择哪些句子mask,作为为摘要呢

  • GSG中使用了三种策略 Random,Lead,Principle,其中Principle策略使用Rouge分数计算每个句子的salience score
  • 但由于多文档摘要中存在过多冗余信息,使得该方法不很适用。因此提出了实体金字塔Mask来选择最能代表输入文档集群的句子

Entity Pyramid Masking

方法来自:金字塔评估(2004),即一个摘要得分为SCU的标注化评价值,其中SCU为信息单元(摘要内容单元)

方法:

  • 使用spacy进行识别实体
  • 计算实体在该簇的不同文档出现频率,搭建文档频金字塔
  • 对频率高的句子集合,计算与文档簇的Rouge得分,来得到最后需要mask的句子,作为预训练目标

Experiments

实验准备:

  • 模型 longformer large

  • 输入长度 4096,输出长度 1024 ,512滑动窗口用于输入的局部注意力

  • 预训练数据集 The Newshead dataset (Gu et al., 2020)

  • 验证数据集

  • 验证指标 Rouge-1,Rouge-2,Rouge-L ,在少样本验证中使用了AVG Rouge进行验证

零样本,少样本实验设置:

由于目前预训练摘要任务,需要大量数据集进行fine-tune来适应特定领域数据集,很多现实场景不切实践,所以为了证明该预训练模型在零样本和少样本可以表现很好,做出实验。

由于零样本和少样本的实验结果会很大程度收到我们选择的样本质量影响,这里随机取10个样本,进行5次取不同random seeds的实验

对比实验设置:

  • BART
  • PEGSASUS

对于输入长度限制,使用input_length_limit/total_document长度来truncate每个文档。将BART和PEGASUS长度也设置相同

零样本实验:

  • 输出长度设置为黄金摘要平均长度

  • 推理过程中控制长度的方法(正交方向)留给未来工作

  • 实验结果如下

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第3张图片

少样本评估:

少样本对于实际应用场景更为现实,十几个的标注数据都能得到。使用10个和100个样本来进行实验计算AVG-ROUGE,实验结果如下。

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第4张图片

全样本估计:

大部分数据集是最好的,但在Multi-XScience上 略低,可能由于数据集cluster内部的文档关联性不高造成的。

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第5张图片

Ablation Study:

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第6张图片

证明自己的contribution的有效性

第一个我觉得没必要,首先自己就是用的别人的LED,然后就是不同文档中间加了。这也是别人提出的,而且对比还自己预训练,别人没预训练情况在少样本情况对比,这结果都不用想。

第二个图,其他处理都保存不变的情况下,将预训练策略改为PEGASUS的mask句子然后还原,证明有效性,本身PEGASUS预训练策略就不是为了mutli-document summary 任务,好一点也是应该的。

这里消融实验就提了两点还没什么用,也确实就是方法的迁移,本身没什么技术创新性。

人工评估

人工评估了对 DUC2007和TAC2008数据集 生成摘要的质量和文字流畅度。

评估人得到匿名摘要,SCU列表进行召回,选择。

摘要质量:(SCU的原始结果,和R ,P,F1值
PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第7张图片

其中R,P,F1计算如下,len(gold)为黄金摘要长度,len(sys)为系统生成的摘要长度。

在这里插入图片描述

流畅度(语法性,参考清晰度,结构和连贯性)

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization_第8张图片

Conclusion

对于目前预训练任务,都是为了得到一个适合的自监督任务,考虑找一个适合的无监督任务生成自监督任务的label来进行预训练。

本文就是用了一种实体在文档中出现频率,然后找到包含该实体句子,在这些句子集合中再用Rouge得分排序,选择适合的setence集合。作为我们预训练任务的摘要。

对于零样本时,只能指定长度控制推理生成摘要长度,对于摘要,生成任务,能否自动控制输出适合长度的摘要,作为未来工作。

Confusion

这里我还没看源码,先考虑几个问题

  • 笔者用spacy工具实现实体识别,效果是否不好,而且得到实体是否较为广泛,如果我们真的需要真的某一领域进行多文档摘要时,可以通过词典,NER任务等方式选择更为合适的entity,来选择target setence。
  • 虽然本文为了增加输入长度限制使用了longformer,但始终还是只能达到4096,而且对于多文档摘要的策略4096除以文档数作为每个文档的max_len,这对于document来说有点过少了,所以如果我们使用该模型时,可能需要我们对输入文档进行前处理,选择重要部分(abstract,前几段,后几段)对于每个cluster的文档数也需要进行限制。可能也可以考虑将一个cluster的document进行分隔处理,然后将summary进行拼接或者更好进行结合处理。
  • 虽然该模型的少样本零样本的结果比以前模型好一点,但终究没有提高很多,还是无法用于实际,虽说现在摘要任务,能用于实际情况确实很少,而且基于都是简单摘要,对于多文档摘要问题还需继续努力。
    后几段)对于每个cluster的文档数也需要进行限制。可能也可以考虑将一个cluster的document进行分隔处理,然后将summary进行拼接或者更好进行结合处理。
  • 虽然该模型的少样本零样本的结果比以前模型好一点,但终究没有提高很多,还是无法用于实际,虽说现在摘要任务,能用于实际情况确实很少,而且基于都是简单摘要,对于多文档摘要问题还需继续努力。
  • 该预训练根据Rouge得分最终选择sentence集合作为abstract结果,如何排序句子,是随机排序吗,最后预训练模型也会学习到该随机排序的顺序,是否可以改进这里的sentence position。

你可能感兴趣的:(论文笔记,nlp,python)