©PaperWeekly 原创 · 作者 | Maple小七
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理
作者提出了一个概念简单但足够有效的摘要生成框架:SimCLS,在当前的 SOTA 摘要生成模型(BART、Pegasus)基础上,SimCLS 在生成模型之后加上了一个无参考摘要的候选摘要打分模型,该打分模型的训练采用了对比学习的思想。SimCLS 可以缓解 Seq2Seq 框架固有的目标函数和评价指标不一致的问题,从而可以从模型生成的候选摘要中筛选出真实的评价指标(ROUGE)打分更高的摘要。
论文标题:
SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization
论文链接:
https://arxiv.org/abs/2106.01890
代码链接:
https://github.com/yixinL7/SimCLS
Introduction
当前的 Seq2Seq 模型通常在极大似然估计(MLE)的框架下以 teacher-forcing 的方式得到训练,众所周知,Seq2Seq 存在着目标函数与评价指标不一致的问题,因为目标函数计算的是局部的,token 级别的损失,而 ROUGE 这类评价指标会计算参考摘要和模型生成的摘要整体上的相似性。
另外,Seq2Seq 模型本身的训练和测试阶段也是不一致的,在测试阶段,模型需要以自回归的方式生成摘要,因此生成过程存在错误累加的问题,这个问题也被广泛地称为曝光偏差(exposure bias)问题。
前人针对 Seq2Seq 模型存在的这些问题提出了一些解决方法,目前主要有下面的几种策略:
Reinforcement Learning: 通过基于全局预测的奖励(rewards)直接优化评价指标,减轻训练和测试的不一致性。虽然强化学习可以直接优化不可导的评价指标,但这又引入了很多强化学习本身存在的问题,比如梯度估计的噪声会导致模型对超参敏感以及训练过程的不稳定性。
Minimum Risk Training: 虽然可以直接优化评估指标,但估计损失的精度依旧得不到保障。
Structured Prediction: 将先验的句子级损失与 MLE 损失结合起来,虽然可以缓解 MLE 训练的局限性,但评价指标和目标函数之间的关系依旧是不明确,不直观的。
在本文中,作者引入了一种基于对比学习的打分模型,该模型通过训练无参考摘要的打分模型来近似需要参考摘要的评价指标,直接学习评价指标本身的打分模式。值得注意的是,虽然已经有一些相关工作提出了可以为 MLE 损失引入对比损失增强模型表现,但作者选择将对比损失和 MLE 损失解耦,形成了一个两阶段结构的模型。
Contrastive Learning Framework for Abstractive Summarization
SimCLS 的思路很直观,首先,我们预训练一个基于 MLE 损失的 Seq2Seq 摘要生成模型,然后建立一个基于对比损失的打分模型为生成的候选摘要排序,通过分开优化生成模型和评价模型,我们能够以有监督的方式训练这两个模型,避免了复杂的强化学习方式。
具体来说,给定原文档 和对应的参考摘要 ,生成式摘要模型 的目标是生成候选摘要 ,使得评价指标 给出的分数 尽可能高。在这个过程中,我们将模型分解成两部分:生成模型 和评价模型 ,前者负责生成候选摘要,后者负责打分并选择最优候选摘要。
Candidate Generation: 在训练阶段,生成模型 最大化文档 对应的参考摘要 的似然度,然后通过 Beam Search 生成多个候选摘要 。
Reference-free Evaluation: 针对文档 ,一个更好的候选摘要 应该获得更高的打分,我们可以建立一个评价模型 ,其目标是为 生成的候选摘要 打分: ,最后模型输出的摘要 为获得最高分的候选摘要:
这里,我们将 初始化为预训练模型 RoBERTa,该模型首先分别对 和 编码,然后计算各自[CLS]
的余弦相似度,将其作为候选摘要 的打分 。
打分模型 的训练损失可以采用对比学习的思想,在前人的对比学习工作中,通常会显式地建立正样本和负样本,而这里我们可以将对比损失推广到排序损失(ranking loss):
其中 为 margin, 为超参数, 是按真实的评价指标 递减顺序排列的候选摘要,这里的 可以是任何评价指标,这里我们采用 ROUGE。大体上说,在训练过程中, 会学习真实评价指标的排序模式,即真实的评价指标负责提供希望模型学习的排序结果,而模型需要在没有参考摘要的条件下依靠原文档为候选摘要排序。
Experiments
作者在 CNN/DailyMail(CNNDM)和 XSum 数据集上进行了相关实验,并采用 ROUGE-1/2/L 和最近提出的 BERTScore 和 MoverScore 作为评价指标,baseline 模型直接调用了 HFTransformes 提供的基于 BART 的生成式摘要模型,在测试阶段采用 diverse beam search 的采样策略生成候选摘要。
实验结果如下所示,其中*
代表结果取自原文,Origin
为作者复现的基于 BART 的生成模型,Max
和Min
是模型生成的候选摘要中的最高分摘要和最低分摘要,这表明多样的采样策略的确可以进一步挖掘模型的潜力,Random
是模型随机生成摘要的平均分,这与原文结果基本一致。可以看到,SimCLS 给出的摘要的得分均比随机选择更高,这表明打分模型确实能够在候选摘要中选择更符合评价指标偏好的摘要。
另外,当我们增加或减少生成的候选摘要的数量时,评价模型依旧能选择出更好的候选摘要,这表明评价模型是足够稳健的。
Fine-grained Analysis
为了进一步证明引入的评价模型的确带来了有意义的改进,作者在不同语义层次上将 SimCLS 与 baseline 做了比较:
Entity-level:首先抽取原文档 和参考摘要 中共有的实体,然后计算这些实体出现在候选摘要中的比例。
Sentence-level:首先将参考摘要和候选摘要中的句子与原文档的句子做语义对齐,然后计算参考摘要和候选摘要对应句子的重合度。
实验结果如下表所示,这表明 SimCLS 生成的摘要能够更好地捕捉实体级的语义信息,且在句子层面上与参考摘要的语义更相似。
下图展示了一例摘要和原文的句子级匹配结果,可以看到 SimCLS 对齐的句子和参考摘要更为相近,而 baseline 关注了不够相关的句子。有趣的是,这里的参考摘要匹配到了原文的最后一句,而 SimCLS 很好地捕捉到了这一模式。
进一步地,作者发现生成式摘要在处理长文档(30句以上)时存在位置偏差(position bias),如下图所示,可以发现 baseline 会倾向于关注靠前的句子,这可能是由 Seq2Seq 模型自回归的生成方式导致的,而 SimCLS 能在一定程度上缓解位置偏差,这得益于 diverse beam search 和评价模型的引入。
Discussion
本文的出发点是希望解决训练和测试的不一致的问题,这个问题可以分为两个方面,一个是自回归式的 MLE 本身存在的曝光偏差问题,另一个是目标函数和评价指标的不一致问题,而本文主要致力于解决后一个问题。
本文的思路并不复杂,就是利用对比学习训练了一个能够在没有参考摘要的条件下打分的评价模型,该评价模型选择出的摘要在真实的评价指标上的表现比随机选择更好。这一思路其实可以推广到所有目标函数和评价指标不一致的场景下,即用可微的模型去学习不可微的评价指标,以获取一个近似的打分函数。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
???? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
???? 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。