作者 :加拿大哥伦比亚大学,艾伦人工智能研究所,华盛顿大学
模型名字:PRIMERA
用途:多文档表示预训练模型 ,用于Summarization
预训练目标:跨文档连接和聚合信息
模型结构:encoder-decoder 简化连接输入文档的处理
验证数据集:3个不同领域6个多文档摘要数据集
实验过程:零样本,少样本和全监督
结果:比当前state-of-the-art数据集好很多
当前热门方法:
我们的做法:
提出一种简单预训练方法,减少了对大规模fine-tune数据的需要和特点数据集架构的需求。
预训练目标:
原来 GSG(Gap Sentence Generation)mask 几个句子,解码时按顺序恢复。
实体金字塔 Entity Pyramid :Mask 整个cluster中 salient 句子,鼓励跨文档查找信息汇总到一个摘要中
如何最小化特点结构数据集
如何mask句子,捕获entity pyramid
将多文档连成一个序列,使用longformer处理
将多个文档连接成长序列(如何解决transformer宽度问题,速度效率如何)
由于级联序列很长,使用Longformer ( LED)
LED模型 使用local+global attention机制,同时cross attention 使用full-attention,
文档分隔符
其他general 摘要模型的预训练任务
如何选择哪些句子mask,作为为摘要呢
方法来自:金字塔评估(2004),即一个摘要得分为SCU的标注化评价值,其中SCU为信息单元(摘要内容单元)
方法:
模型 longformer large
输入长度 4096,输出长度 1024 ,512滑动窗口用于输入的局部注意力
预训练数据集 The Newshead dataset (Gu et al., 2020)
验证数据集
验证指标 Rouge-1,Rouge-2,Rouge-L ,在少样本验证中使用了AVG Rouge进行验证
由于目前预训练摘要任务,需要大量数据集进行fine-tune来适应特定领域数据集,很多现实场景不切实践,所以为了证明该预训练模型在零样本和少样本可以表现很好,做出实验。
由于零样本和少样本的实验结果会很大程度收到我们选择的样本质量影响,这里随机取10个样本,进行5次取不同random seeds的实验
对于输入长度限制,使用input_length_limit/total_document长度来truncate每个文档。将BART和PEGASUS长度也设置相同
输出长度设置为黄金摘要平均长度
推理过程中控制长度的方法(正交方向)留给未来工作
实验结果如下
少样本对于实际应用场景更为现实,十几个的标注数据都能得到。使用10个和100个样本来进行实验计算AVG-ROUGE,实验结果如下。
大部分数据集是最好的,但在Multi-XScience上 略低,可能由于数据集cluster内部的文档关联性不高造成的。
证明自己的contribution的有效性
第一个我觉得没必要,首先自己就是用的别人的LED,然后就是不同文档中间加了。这也是别人提出的,而且对比还自己预训练,别人没预训练情况在少样本情况对比,这结果都不用想。
第二个图,其他处理都保存不变的情况下,将预训练策略改为PEGASUS的mask句子然后还原,证明有效性,本身PEGASUS预训练策略就不是为了mutli-document summary 任务,好一点也是应该的。
这里消融实验就提了两点还没什么用,也确实就是方法的迁移,本身没什么技术创新性。
人工评估了对 DUC2007和TAC2008数据集 生成摘要的质量和文字流畅度。
评估人得到匿名摘要,SCU列表进行召回,选择。
其中R,P,F1计算如下,len(gold)为黄金摘要长度,len(sys)为系统生成的摘要长度。
流畅度(语法性,参考清晰度,结构和连贯性)
对于目前预训练任务,都是为了得到一个适合的自监督任务,考虑找一个适合的无监督任务生成自监督任务的label来进行预训练。
本文就是用了一种实体在文档中出现频率,然后找到包含该实体句子,在这些句子集合中再用Rouge得分排序,选择适合的setence集合。作为我们预训练任务的摘要。
对于零样本时,只能指定长度控制推理生成摘要长度,对于摘要,生成任务,能否自动控制输出适合长度的摘要,作为未来工作。
这里我还没看源码,先考虑几个问题