使用能量函数提高文本摘要的一致性(2310)
code项目没有放出代码
paper
当前的抽象摘要模型经常生成不一致的内容,即不能从源文档直接推断出的文本、与世界知识不一致或自相矛盾的文本。
这些不一致激发了一种新的一致性分类法,我们将其定义为忠实性、事实性和自立性。
然而,最近关于减少文档摘要不一致的工作只关注忠实度检测和纠正,而忽略了其他不一致现象,这限制了模型的可扩展性。
为了提高总体一致性,我们引入了 EnergySum,其中我们通过设计反映每种一致性类型的能量评分器来应用基于剩余能量的模型。这些能量分数用于在采样过程中对候选者重新排名。
XSUM 和 CNN/DM 数据集上的实验表明 EnergySum 减轻了准确性和一致性之间的权衡。
虽然在 ROUGE (Lin, 2004) 和 BERTScore (Zhang et al., 2020) 等基于重叠的指标方面表现良好,但由于固有的噪声数据集和基于最大似然估计的训练目标之间的差异,当前的抽象摘要方法经常生成不一致的内容和一致性测量。抽象概括中的不一致内容有不同的解释,包括不能从源文档直接推断的文本、不符合世界知识和常识的事实或自相矛盾的文本。
我们将一致性正式分类为忠实性、事实性和自立性。表 1 说明了不同类型的一致性错误。以前的大多数方法通过过滤掉噪声训练样本(Kang 和 Hashimoto,2020)、应用对比学习(Cao 和 Wang,2021)、后期编辑(Cao 等人,2020)等来提高文档摘要的一致性。忠诚度一致性的范围有限。然而,仅仅从忠诚度的角度解决不一致问题是不够的。与提取方法不同,抽象摘要在摘要中引入了新内容,这些内容不是直接从源文档复制的,也不一定是不相关的。因此,检测和减轻不一致需要在源文档旁边引入更大的参考语料库。事实性将生成的内容与世界知识进行比较,而自我支持性则验证生成的句子是否与其前一个一致。此外,一致性是在整个预测序列上衡量的,而现有的汇总目标评估单个标记的条件分布,并且缺乏对预测的全局控制。
这些促使我们将基于剩余能量的模型(REBM)(Deng et al., 2020)框架应用于文档摘要,该框架联合训练摘要器和判别器,学习将高分分配给一致的摘要,将低分分配给不一致的摘要。基于能量的方法(He et al., 2021)的优点是它们同时对整个输入进行评分并避免局部归一化陷阱,为解决这个问题提供了一个自然的解决方案。因此,我们引入了采用REBM框架的EnergySum来提高一致性。我们设计的能量函数反映了每种类型的一致性,并且与汇总模型实例无关。我们提出了联合推理,其中能量评分器在候选重新排序步骤中与解码搜索策略合作。
总之,我们的贡献如下:
最近在一致抽象概括方面的工作一直在研究减少基于实体的幻觉。聂等人。 (2019) 通过将用于数据细化的语言理解模块与自我训练迭代相结合来减少幻觉。赵等人。 (2020)通过验证数量实体和推广更少的幻觉摘要来减少数量幻觉。 Kang 和 Hashimoto(2020)提出了一种损失截断训练算法,可以过滤掉可能导致幻觉的噪声训练样本。曹等人。 (2022)根据预训练和微调的掩蔽语言模型,利用实体的先验概率和后验概率来检测事实幻觉,并将其用作强化学习中的奖励信号。
迪克西特等人。 (2023)提出了一种用于对比摘要训练的候选摘要重新排序技术,以提高忠实度和摘要质量。张等人。 (2023)以多任务训练方式使用信息提取(IE)来提高多文档摘要的事实一致性。
**与我们最相关的工作是 CLIFF(Cao 和 Wang,2021),它通过设计负样本生成策略来模拟最先进的摘要模型常见的错误,将对比学习应用于抽象摘要。**尽管两者都是在具有 NCE 损失的解码器之上训练判别器,但我们的工作在判别器的结构、训练损失和推理过程方面有所不同。
提出了基于校正的方法来减轻一致性改进和基于 ROUGE 的准确度测量下降之间的权衡。曹等人。 (2020)提出了一种在合成示例上进行训练的后期编辑校正器模块,其中启发式转换的灵感来自对参考摘要的错误分析。 Span-Fact(Dong et al., 2020)是一种事实校正模型,它利用从问答模型中学到的知识,通过跨度选择对系统生成的摘要进行校正。朱等人。 (2021) 提出了一种事实感知摘要模型,将事实关系集成到摘要生成过程中,并提出了一种采用微调去噪自动编码器形式的事实校正器模型。
自动一致性评估模型大致可以分为基于蕴涵的方法和基于QA的方法。基于蕴涵的指标(Kryscinski et al., 2020;Laban et al., 2022;Ribeiro et al., 2022)训练分类模型来预测摘要是否包含在源文档中。同时,基于 QA 的指标(Fabbri et al., 2022; Scialom et al., 2021; Durmus et al., 2020)根据输入摘要和文档生成问题,然后应用 QA 模型来回答问题并比较答案计算忠诚度分数。陈等人。 (2023)提出了一种基于语义角色标签的多标签分类模型,以预测摘要中的忠实性错误类型。拉达克等人。 (2022)用忠实性-抽象性权衡曲线评估摘要系统的有效忠实性。郑等人。 (2023) 评估和分析预先训练的摘要模型对动态演变数据的忠实度。
基于能量的模型 (EBM)(LeCun 等人,2006)是一种通用学习框架,可为任何给定输入分配非标准化能量分数。 EBM 已应用于机器翻译,以解决训练目标(最大似然估计)和任务度量(BLEU)之间的差异(Bhattacharyya 等人,2021),以及改善自然语言理解的校准(He 等人, 2021)。
基于残余能量的模型(REBM)(Deng et al., 2020)被引入文本生成,它使用 EBM 从自回归生成器的残余误差中学习,以减少模型和数据分布之间的差距:Pθ ∝ PLM (x) exp(−Eθ(x)) ,其中 PLM 是局部标准化语言模型,Eθ 是能量函数。李等人。 (2021)进一步将R-EMB应用于端到端语音识别。
能量函数也被用作文本生成中的约束。 COLD 解码框架(Qin 等人,2022)通过能量函数指定约束来统一约束生成,然后通过基于梯度的采样对约束执行有效的可微分推理。
能量函数解决了基于 MLE 的训练目标和一致性测量之间的差异。通用能量函数设计通常与最后一个编码器/解码器层逻辑的均值池一样简单。为了提高一致性,我们提出了三个能量函数,并使用它们的加权和作为噪声对比估计损失中的最终能量函数。
其中 x 是输入文档,y 是参考摘要,^ y 是生成的摘要。
忠诚。
继秦等人之后。 (2022)我们使用 EISL(编辑不变序列损失)(Liu 等人,2022)作为相似性度量。这个 n 元语法匹配函数可以看作是 BLEU-n 度量的可微近似。它的计算本质上是使用目标 n-gram 作为内核对候选序列进行卷积运算。
在训练过程中,我们使用参考摘要来衡量稳定和高效训练的忠实度。然而,它无法避免注释中的数据集噪声,因为它基于参考摘要正确的假设。此外,黄金摘要在推理过程中不可用。
事实性。曹等人。 (2022)建议根据预训练和微调的掩码语言模型作为分类器输入,利用实体的先验概率和后验概率来检测事实幻觉。这两种分布如何协同作用以产生事实幻觉仍在探索中。为了应用此措施,我们首先启动并冻结预训练的 BARTlarge 模型作为先前模型。分类器 γ 将先验模型和后验模型的输出串联作为其输入。
自立能力。解码器输出顶部的非线性层 φ 检测生成的摘要中的自我支持性。
使用交叉熵损失 LCE 对预训练语言模型进行微调:
为了稳定有效地训练鉴别器,我们结合了两个平方铰链损失 LE (Liu et al., 2020) 和基于相似性的 NCE 损失 Lsim (Cao and Wang, 2021)。
m1 和 m2 是边缘超参数,损失函数用它们来惩罚能量为 ˆ E ∈ [m1, m2] 的样本。
上述损失中,P和N分别为正样本集和负样本集,yi,yj ∈ P,yj ̸= yi,yk ∈ P ∪ N,yk ̸= yi。 hi、hj、hk 是摘要 yi、yj、yk 的表示,sim(·,·) 计算摘要表示之间的余弦相似度。最终的训练损失是上述损失的组合:
之前的工作(Deng 等人,2020)表明样本重采样过程类似于从联合分布中精确采样。因此,我们通过将能量分数插入候选重新排序步骤来修改采样过程。
在解码过程中,会生成一批候选句子并为每个输入进行评分。我们用候选者的能量分数替换生成概率分数,并重新对批次进行排序。由于集束搜索更有可能生成相似的结果,而重新排序的效果较小,因此我们选择多样化集束搜索(Vijayakumar et al., 2016)作为默认搜索策略。
我们在 XSUM 上将我们的方法与 BARTlarge (Lewis et al., 2020)、LOSSTRUNC (Kang and Hashimoto, 2020)、FASUM 及其变体 FASUM+FC (Zhu et al., 2021) 和 CLIFF (Cao and Wang, 2021) 进行比较(Narayan 等人,2018)和 CNN/DM(Nallapati 等人,2016)数据集。人类基线是指人类编写的参考摘要。
我们使用预训练的 BARTlarge 模型实例化 EnergySum 和 Losstrunc。 LE 中的边际超参数 m1 = −10、m2 = −5 根据开发集上的性能进行选择。对于 FASUM,我们评估提供的预测文件,因为代码不公开。请注意,他们提供的测试集文件与标准测试集拆分略有不同。对于所有其他实验,每个模型训练 15000 步骤,学习率设置为 1e − 3,一批中的最大标记设置为 4096,更新频率为 16,优化器为 Adam,预热步骤为 500 。 Losstrunc中的超参数c设置为0.3。为了保持数值一致性,所有实验结果均在三次随机运行中取平均值。**使用配备 40GB DRAM 的 Tesla A100 GPU 训练模型平均需要大约 10 个小时。**由于在整个测试集上评估 FEQA 的时间成本很高,因此我们随机抽取 500 个文档摘要对来计算分数。
我们使用 ROUGE(Lin 和 Hovy,2003)和 BERTScore(Zhang 等人,2020)评估准确性。对于忠实性和真实性,我们分别使用 FEQA(Durmus 等人,2020)和 ENTFA(Cao 等人,2022)来衡量。由于没有现有的自我支持性指标,我们提出了 DAESS,它将多句子摘要进行拆分并采用 DAE(Goyal 和 Durrett,2021)来比较一个摘要中的每一对句子。 XSUM 数据集中的摘要通常是一句话,因此我们仅在 CNN/DM 数据集上评估 DAESS。
表 2 显示,与 BARTlarge 相比,EnergySum 在 XSUM 和 CNN/DM 上提高了可信度,并具有相当的准确度性能。所有一致性改进基线的基于重叠的准确率都低于 BARTlarge,这显示了基于 MLE 的训练和一致性训练之间的权衡。尽管如此,我们的方法从这种权衡中受到的伤害较小,并且仍然具有相当的准确性性能。人工编写的黄金摘要通常代表性能的上限。然而,人类基线的 FEQA(忠实度)性能较低,表明数据集中存在噪声。自支持性得分均接近 100%,这意味着自支持性对于当前的摘要系统来说并不是一个具有挑战性的问题,也需要更细粒度的评估指标。采样方法选择和整体性能之间还存在权衡。联合推理只能应用于搜索候选多样化的搜索策略,通常比常规波束搜索表现更差。
我们建议将残差 EBM 框架与能量评分器和联合推理一起应用,以提高文档摘要的一致性。 XSUM 和 CNN/DM 数据集上的实验表明 EnergySum 减轻了准确性和一致性之间的权衡。这项工作的直接扩展包括提出更细粒度的数据增强策略以及研究预测确定性和能量分数之间的关系。
这项关于一致文档摘要的工作在数据范围和任务配置方面存在局限性。首先,EnergySum 从数据增强策略模拟的常见错误中学习,这可能会限制其在更多样化的环境中的应用。其次,EnergySum 预测句子级别分数,因此无法检测跨度级别错误或预测错误类型。