论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》

话语:一段多轮对话中的一次回复。

3.Commonsense Inference on CICERO

在CICERO上设计生成式和多项选择题答题任务,以评估各个语言模型基于常识的对话级推理能力。

3.1Task 1:CICERO-NLG(自然语言生成)

目标是为对话D中的目标话语ut生成问题q的答案。每种推理类型都有各自的问题q。

Task 1.1: Dialogue Causal Inference.

 因果关系涉及事件的原因和结果。我们将对话因果推理任务定义为生成话语的原因或后续事件,作为因果问题的答案:

1.原因:给定D, ut,生成ut的原因ct

2. 后续事件:给定D ut,生成ut的后续事件et

3. 后续事件剪辑(Subsequent EC):给定ut, 到ut截止的对话Dut,生成ut的后续事件et

我们考虑后续事件的两种不同情景,因为事件经常出现在对话中的目标话语之后。因此,子任务3在评估模型对未观察到的影响进行推理的能力方面更具挑战性。

我们扩展子任务1、2,以合并较长的链,并制定链生成任务。我们认为在数据集中ut的话语同时标注了原因和后续事件,即ct→ut→et。因果链被认为是一个三元组,我们制定了任务,其中缺失的部分必须从其余组件生成:

4. Chained Cause:从ut和et生成ct

5. Chained Subsequent Event (Chained SE):从ut和ct生成et。

Task 1.2: 前提,动机和反应生成

目的是从给定的D和ut中产生listener的前提/动机/反应。对于反应来说,ut是D的最后一个话语。生成先决条件(任务1.2.1)需要理解事件的依赖性。产生动机(任务1.2.2)和反应(任务1.2.3)是关于学习基本的人类驱动和情感。注意,反应生成与对话回复生成是不同的问题。回复遵循话语水平分布,这与情绪反应有本质区别。

3.2 Task 2: CICERO-MCQ(muti-choice-question)

给定对话D,目标ut,五个问题(推理类型)q之一,正确答案at,备选选项Ft = {ft1, ft2, ft3, ft4}, CICERO-MCQ任务旨在选择正确答案at(见图4),以及Ft中可能正确的任何答案。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第1张图片

 备选选项Ft通过自动生成和人工监控的组合创建,如下所示:

我们在SNLI矛盾对(SNLI contradic-tory pairs (Bowman et al., 2015) )时间旅行反事实对(Time-Travelcounterfactual pairs (Qin et al., 2019) )上训练T5大模型,以从输入句子中生成矛盾/反事实。我们使用这个模型从带注释的真实答案中生成一个备选答案池。与真答案的嵌入余弦相似度小于0.9的备选答案(from all-mpnet-base-v2 in Reimers and Gurevych(2019b))和与真答案(from roberta-large-mnli)相矛盾的备选答案被保留,其余的被丢弃。经过过滤的集合称为N。

·我们使用对抗过滤(AF)算法(Zellers et al, 2018)从N中选择4个备选答案Ft。对于多项选择QA任务,AF是一种有效的方法,通过检测和减少文体假象来检测容易识别的备选答案,并用更难的候选答案替换它们。算法如下:

(i)我们从数据集中所有带注释的真答案开始,从N中选择任意四个Ft来创建D。我们根据对话ID将D随机分为Dtrain(80%)和Dtest(20%)。

(ii)在Dtrain上训练多选项QA模型(鉴别器),该模型对Dtest中所有实例的所有五个选项进行评分。得分最高的选项被认为是预测答案。对于一个特定的测试实例,Ft中得分低于at的选项被N-Ft中其他得分较高的选项替换。Ft中被替换的答案从N中删除。

(iii)Ft现在由相对困难的选择组成。创建一个新的随机分割Dtrain和Dtest,然后返回步骤(ii)。当连续Dtest中的精度达到收敛时,算法终止。最后的备选选择集称为Ft。

AF算法确保了一个健壮的最终数据集D,而不考虑最终的训练、验证和测试分割。我们使用一个新的roberta-large模型来初始化鉴别器,并在步骤(ii)中进行评分和替换之前训练3个周期。在Dtest中需要14次迭代才能收敛。

注释者对最终AF选择的选项Ft执行手动检查。根据上下文,注释者将Ft中的每个备选选项标记为推测正确或不正确。因此,除了最初注释的正确答案之外,实例可能在Ft中有正确答案。该步骤后的最终数据集统计如表3所示。

Task 2.1: Single Answer Selection.

考虑Ft不包含任何正确答案的情况。任务是在给定的D、ut和q的五个选项中选择正确的答案。

Task 2.2: All Answers Selection.

此任务对整个数据集(包括任务2.1中使用的数据子集)执行。对于AF算法产生的特定实例,可能有一个或多个正确答案。任务是从给定D、ut和q的五个选项中选择所有正确答案(包括at)。

4 CICERO Tasks: Experimental Results

我们将数据集划分为对话级别,其中训练、验证和测试实例分别从总共3477、1097和1098个不同的对话中获得。这导致注释实例总数的比例为60:20:20。这三组分别有17365、5370和5331个独特的目标话语。我们调整验证数据集并报告测试数据集的结果(平均5次运行)。为了简洁起见,补充材料中给出了详细的超参数。

对于所有任务的五种推理类型,我们使用以下question(q):Cause: What is or could be the cause of target? Subsequent Event: What subsequent event happens or could happen following the target? Prerequisite: What is or could be the prerequisite of target? Motivation: What is or could be the motivation of target? Reaction: What is the possible emotional reaction of the listener in response to target?

4.1 Baseline Models

CICERO-NLG — (1.1–1.2).我们使用大版本的T5(Raffel等人,2020)和GLUCOSE-T5(Mostafazadeh等人,2020年)作为我们的模型。GLUCOSE-T5是在GLUCOSE数据集上预先训练的T5大模型。我们用分隔符连接q、ut和上下文c,以形成模型的输入:qutc。上下文c通过连接D:ut(后续事件剪辑)或D(所有其他任务)的话语来形成。对于chained generation task,我们还提供了原因/后续事件作为输入。输入为q<sep>ut<sep>subsequent event:etc分别表示原因和后续事件生成。目标是在sequence-to-sequence设置中生成作为输出的答案。我们在训练过程中使用teacher forcing,在推理过程中使用beam search。

CICERO-MCQ — Single Answer Selection (2.1).

我们使用 RoBERTa-large, ELECTRA-large, T5-large, and Unified QA Large 完成此任务。RoBERTa-large、ELECTRA-large模型的输入是问题q、目标ut、对话D和候选答案xj、j ∈ {1, ..., 5}: q ut D xj。根据相应的<cls>向量预测每个得分,并选择得分最高的一个作为答案。对于seq2seq模型T5 large和Unified QA large,我们使用以下输入-q<sep>1)x1 2)x2 3)x3 4)x4 5)x5<sep> ut

CICEROMCQ — All Answers Selection (2.2).

我们使用seq2seq模型T5 large和Unified QA large,因为它们可以生成单个和多个答案(使用分隔符标记)作为输出。输入为q<sep>1)x1 2)x2 3)x3 4)x4 5)x5<sep> ut x4(多个答案)。这里,x1−x5表示随机排列的五个可能的选择。

4.2 Results of the CICERO-NLG Task

自动评估指标。对于生成性任务,我们报告了以下指标:BLEU(Papineni等人,2002年)、METEOR(Banerjee和Lavie,2005年)、ROUGE(Lin,2004年)、CIDEr(V edantam等人,2015年)和Sem-Sim,它们使用监督的RoBERTa大句嵌入模型计算两句的语义余弦相似性(Gao等人,2021)。所有得分均在0-1范围内。
人的评价指标。由于与人类评估的显著不一致,文献中通常认为自动评估指标不可靠,无法用于生成质量评估。因此,我们求助于人类评估指标。注释者对三个粗略属性的评分为1(最差)到5(最佳)的整数:创造性:由于大多数推论都需要推测,这个指标衡量模型和注释者的创造性。上下文性:生成的或注释的推断是否符合上下文。流畅性:生成的或注释的推理在语法上是否正确。

自动评估结果。生成性任务的结果见表4和表5。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第2张图片
  

        Table 4 :CICERO-NLG任务的结果。T5∗ and GLUCOSE-T5∗没有在我们的数据集上进行微调。所有模型都是大模型。SE表示后续事件。

我们观察到,经过微调的模型在表4中的各种度量中表现得非常相似。T5模型在大多数实验设置中实现了最佳性能。结果表明,因果类型比动机和反应更难推断。然而,在先决条件类型的情况下,模型生成是最具挑战性的,因为推断这种类型需要丰富的常识和背景知识。因此,与其他推理类别相比,该类别的模型得分较低。我们还注意到,将未来话语暴露于模型有助于为关系类型“后续事件”获得更好的推理性能。如后续事件剪辑任务中所示,当输入中没有未来话语时,训练后的模型表现更差。CIDEr指标中的性能显著下降。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第3张图片

 Table 5:CICERO-NLG子任务的结果——连锁原因和后续事件生成。(1.1.1)*和(1.1.2)*表示任务1.1.1和1.1.2的结果(如表4所示),但仅针对说明了因果关系的目标,确保与(1.1.4)和(1.1.5)进行公平比较。SE表示后续事件。

对于链式生成任务(1.1.4和1.1.5),我们注意到(参见表5)模型性能的一个非常相似的趋势,即,与仅原因(1.1.1)和后续事件(1.1.2)预测相比,模型在这两种实验设置下的性能往往更好。我们可以推测,来自“连锁原因”设置中“后续事件”类型的可用注释以及“连锁后续事件”设置中的“原因”类型的其他提示是此类性能改进的关键。如表4(以及表6)所示,T5和GLUCOSE-T5的非微调版本表现不佳,因为它们在所有五个推理类别中都会产生杂乱无章的输出,表明在CICERO上微调的重要性。

人的评价结果。对于五种推理类型中的每一种,我们随机抽取每个模型产生的40个推理及其对应的黄金推理。然后,这些推断由三个独立的注释者基于人类评估的度量手动评级。如表6所示,我们观察到,CICERO上的大多数微调模型表现相似,但未能达到黄金注释性能。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第4张图片

Table 6:CICERO-NLG人体评估结果。T5∗ 和GLUCOSE-T5∗ 表示非微调版本。

此外,正如预期的那样,微调模型的表现明显优于非微调模型。我们在表7中提供了生成的推断的一些示例。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第5张图片

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第6张图片

Table 7:从CICERO-NLG任务的示例对话中提取的不同模型的推断。 

 对模型生成的推断的检查表明,在不概括事件的情况下使用对话中的关键词更为频繁。与黄金注释相比,生成的推理的多样性和创造性明显降低。

GLUCOSE的性能:GLUCOSE包含对独白中事件的上下文常识推断。比较微调和非微调的结果(表4、表6)表明,基于独白的上下文常识推理数据集的预训练并不能确保在相同的对话任务上表现良好。与未微调的T5类似,未微调的GLUCOSE-T5会为所有常识推理类型(因果和动机类型除外)产生杂乱无章的输出。我们推测这是因为这两种常识类型存在于GLUCOSE数据集中。尽管这两种常识推理类型生成的文本在语法上是正确的,有时包含上下文词,但它们远未达到预期的质量,在语义上与注释的gold实例非常不同,并且在定性评估中评分较低,如表6所示。我们还确认了通过人类评估对CICERO模型进行微调的有效性,如§4所述。

4.3 CICERO-MCQ任务结果

评估指标。1) RoBERTa和ELECTRA:选择正确答案的准确性。2) T5 and Unified QA:如果输出不包含任何分隔符标记,则将其视为单个答案。否则,在分隔符标记处对输出进行分段,以获得多个答案。然后,我们遵循Khashabi等人(2020)中的方法,通过将每个生成的答案与基于其令牌级别重叠的候选选项进行比较来计算匹配。如果最终输出与黄金注释答案完全匹配(EM),则认为预测是正确的。

单一答案选择(2.1)。我们在表8中报告了该设置的结果。报告的指标是选择正确答案的准确性。RoBERTa和ELECTRA的总分分别为83.28%和86.82%。ELECTRA在所有五种推理类型上都优于RoBERTa。这可能是使用RoBERTa作为AF算法的主干模型,然后作为最终CICEROMCQ任务的求解器的副作用。我们认为,这一结果暴露了AF过程的模型依赖性。骨干模型X为AF算法选择的负样本将难以与使用相同模型X的人类注释的真实样本区分开来。然而,使用另一种模型Y,这些负样本可能相对更容易识别。如表8所示,seq2seq模型T5和Unified QA的性能明显优于RoBERTa和ELECTRA。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第7张图片

Table 8:任务2.1的准确度得分。模型在有一个正确答案的实例上进行训练和评估 

像RoBERTa、ELECTRA这样的模型将每个候选答案单独编码,而T5和Unified QA将它们一起编码。通过对候选答案的这种联合编码,T5和Unified QA可以利用更多与任务相关的信息,而RoBERTa和ELECTRA可能因为单独的编码方案而错过这些信息。我们推测这可能是seq2seq模型在这一特定任务中优于RoBERTa和ELECTRA的原因之一。T5和Unified QA在单个答案选择上的得分几乎相同。这是令人惊讶的,因为Unified QA是从T5-large检查点开始初始化的,然后在其他QA数据集上进一步训练。因此,我们认为,Unified QA的不同微调域对CICEROMCQ任务没有帮助。

所有答案选择(2.2)。我们在单个和多个正确答案的整个数据集上训练和评估T5和Unified QA,并将结果报告在表9中。

论文阅读笔记《CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues》_第8张图片

Table 9:任务2.2的精确匹配分数。在具有单个和多个正确答案的实例上训练模型,即整个数据集。SE→ 后续事件;S→ 单一答案实例;M→ 多答案实例。

 总体而言,T5和Unified QA的表现相似。在模型中,具有多个正确答案的实例的总体性能比具有单个正确答案的示例差得多。这可能归因于单答案和多答案实例之间分别为86/14%(见表3)。

5 Related Work

与事实知识相比,常识知识受到了更多的关注,因为它通常不会在上下文中明确提及。它被证明在开放式生成任务中是必不可少的,例如故事解释生成(Mostafazadeh等人,2020)、故事结束生成(Guan等人,2019)和绑架推理(Bhagavatula等人,201)。为了在NLP模型中注入常识知识,句子排序(Ghosal等人,2021b)、情感识别(Ghosall等人,2020)、故事生成(Guan等人,2020;Xu等人,2020年)和对话生成(Zhou等人,2018)等任务的几种方法使用了普遍的常识知识库(CSKB),如ConceptNet(Speer等人,2017)或ATOMIC(Sap等人,2019)。然而,ConceptNet是上下文无关的,这意味着它们只捕获选定实体集周围的关系,而不关注实体发生的上下文。此外,推理通常需要在语篇层面上进行,这并不总是与知识库中的实体一致。COMET等知识模型(Bosselut等人,2019)是一种规避这一问题并在话语(句子)层面进行推断的方法。但生成的知识仍然缺乏对话的细节,因为它是在上述知识库上训练的。相反,我们的方法以对话数据集为中心,并在话语层面提供更详细的常识推断。

6 Conclusion

我们介绍了CICERO,一个新的对话推理数据集,具有情境化常识推理。它包含∼53K个常识维度的推论——原因、后续事件、先决条件、动机和情绪反应——收集自∼5.6K对话。为了展示CICERO在对话推理中的有用性,我们为最先进的NLP模型设计了几个具有挑战性的生成和多选择答案选择任务来解决。

Hyperparameter Details

CICERO-NLG生成任务的所有模型都使用Adafactor优化器进行了训练(Shazeer和Stern,2018),学习率为5e-6。使用AdamW(Loshchilov和Hutter,2018)优化器以1e-5的学习率训练CICEROMCQ备选选择模型。我们在实验中batch_size为4。

你可能感兴趣的:(论文笔记,论文阅读,nlp,自然语言处理,人工智能)