2024年1月16日Arxiv热门NLP大模型论文:Using Natural Language Inference to Improve Persona Extraction from Dialog

霍普斯金新研究:提高对话智能体在新领域中从对话中提取个性信息的能力

引言:探索跨领域对话智能体的个性化挑战

在构建对话智能体时,个性化是一个关键挑战,尤其是在跨领域的情况下。对话智能体需要能够根据其被赋予的角色或个性来生成回应,这要求它们能够理解并表达与特定角色相关的特征和行为。然而,现有的对话智能体往往在维持一致的个性上存在困难,尤其是在从现实世界场景转移到如幻想世界等不同叙事领域时。为了解决这一问题,研究人员探索了使用自然语言推理(Natural Language Inference, NLI)来改进从对话中提取个性信息的方法。本文将深入探讨这一研究的动机、方法和结果。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接和项目地址

论文标题

Using Natural Language Inference to Improve Persona Extraction from Dialogue in a New Domain
机构

Sony Group Corporation, Tokyo, Japan; Center for Language and Speech Processing, Johns Hopkins University
论文链接
https://arxiv.org/pdf/2401.06742.pdf

论文摘要:提炼关键研究内容和目标

本研究的目标是提高对话智能体在新领域(如幻想世界)中从对话中提取个性信息的能力。研究团队首先训练了一个基于PersonaExt数据集的序列到序列(seq2seq)模型,该模型能够将对话转换为可以解析并添加到知识图谱(Knowledge Graph, KG)中的个性“三元组”。然而,由于模型在生成来自领域外话语时可能产生低质量、通用或错误的个性信息,研究人员引入了一个自然语言推理(NLI)个性修剪步骤,该步骤使用专门训练的NLI模型来确定提取的三元组是否可以从话语中推断出来。

研究人员探索了三种方法:(1) 引导解码以强制模型输出正确格式的结果;(2) 生成多个候选项并重新排序;(3) 生成多个候选项并分类。实验结果表明,这种修剪步骤减少了假阳性(在没有个性信息的情况下提取个性)并提高了提取的角色个性的质量。

此外,研究还涉及了如何将提取的个性信息与PeaCoK知识图谱中的个性关系类型相匹配,以及如何使用NLI模型来评估对话话语和提取个性之间的蕴含关系。通过这些方法,研究人员希望能够将训练有素的个性提取模型适应于新的叙事领域,并通过人类评估来验证提取的个性信息的质量。

现有挑战:PersonaChat数据集的局限性与个性化对话智能体的需求

1. PersonaChat数据集的局限性

PersonaChat数据集为训练具有特定人格的对话智能体提供了基础,但它在对话和叙事环境的多样性上存在不足,主要局限于“现实世界”的场景。尽管模型被训练以在给定特定人格的情况下进行交流,但手工制作这些人格描述既耗时又费力。现有的自动提取人格信息的方法虽然减轻了这一负担,但这些模型同样基于PersonaChat数据集进行训练,因此在非现实世界场景(如LIGHT数据集中的幻想世界)中提取人格信息时遇到困难。此外,为特定场景创建新数据以训练模型是人力密集型的,因而成本过高。

2. 个性化对话智能体的需求

对话智能体需要被赋予人格或角色身份描述以在回应用户时进行模拟。这些手工制作的人格描述被提供给模型的上下文,以及对话历史,或通过特定角色的嵌入式编码器在生成响应时添加。构建这些智能体的人格可以是非常耗时的工作,而人格提取通过自动从过去的对话话语中提取关于角色的信息来缓解这一问题。手工制作人格是艰巨的,而角色所说的话可能包含丰富的信息。然而,目前的模型和技术用于人格提取都是在相同的领域(即随意闲聊)训练的,因为标准训练数据集是基于PersonaChat的。由于PersonaChat被认为存在于“现实世界”,因此在它上面训练的人格提取模型在提取新的和远离叙事领域的人格时遇到了困难。

方法介绍:自然语言推理在后期模型适应中的应用

1. 自然语言推理的应用

为了解决上述问题,我们引入了一种自然语言推理(Natural Language Inference, NLI)方法,用于在后期调整已训练的人格提取模型以适应新的场景。我们从对话自然语言推理(Dialog-NLI)的文献中汲取灵感,并设计了NLI重排序方法来从对话中提取结构化的人格信息。与现有的人格提取模型相比,我们的方法返回了更高质量的提取人格,并且需要更少的人工注释。

2. NLI重排序方法

我们将人格提取问题视为序列到序列(seq2seq)问题,将话语映射到可以解析并添加到知识图谱(KG)的人格“三元组”。在从非领域话语生成时,一个重要问题是模型幻觉或生成低质量、通用或不正确的人格信息。由于KG应该是精确的,我们引入了一个自然语言推理的人格修剪步骤,使用专门为确定提取的三元组是否可以从话语中推断出来的NLI模型进行训练。我们探索了三种方法:(1)引导解码以强制模型输出正确格式,(2)生成多个并重排,以及(3)生成多个并分类。我们展示了这种修剪步骤减少了假阳性(在没有人格信息时提取人格)并提高了与当前最先进模型PAED相比的提取角色人格的质量。

数据集构建:PersonaExt-PeaCoK的开发与适配

1. PersonaExt-PeaCoK数据集的开发

为了适应特定叙事的需求,我们开发了PersonaExt-PeaCoK数据集。我们从PersonaExt数据集开始,这是一个半自动标记的数据集,用于从PersonaChat话语中提取人格。PersonaExt包含细粒度的关系,这些关系并不适用于所有叙事设置(“领域”),因此我们将105种人格关系类型归类为4种,这些类型足够通用,可以适用于不同叙事和不同领域中的各种角色:经历、目标或计划、常规或习惯以及特征。例如,一个幻想世界中的海盗和一个现实世界中的会计师都有关于常规和目标的人格知识,例如(我,目标或计划,想要掠夺)和(我,目标或计划,想要加薪)。这些关系类型来自唯一专门为人格设计的知识图谱PeaCoK。

2. PeaCoK的适配

我们将人格提取视为序列到序列问题,将话语映射到可以解析并添加到KG的人格“三元组”。我们对PersonaExt进行了半自动转换,通过在关系级别重新标注对话话语以适应PeaCoK关系,将其转换为PeaCoK格式。我们将重新标记的PersonaExt数据集称为PersonaExt-PeaCoK。模型训练的训练集、验证集和测试集是根据标签进行分层划分的。

模型训练与模板设计:BART模型的微调和输入输出模板

在构建能够理解和表达特定个性的对话智能体时,BART模型的微调和输入输出模板设计是关键步骤。我们采用了序列到序列(seq2seq)的方法,将对话中的发言映射到能够被知识图谱(KG)解析并添加的个性“三元组”上。为了确保生成的个性信息质量,我们引入了自然语言推理(NLI)的个性剪枝步骤,通过一个专门训练的NLI模型来判断提取的三元组是否能从发言中推断出来。

1. 微调BART模型:

我们对BART-Large模型进行了微调,使用的是HuggingFace实现,并在PersonaExt-PeaCoK数据集上进行训练。为了确保输出格式的正确性,我们对生成过程施加了约束,以确保模板的遵循。这些约束灵活,可以与任何解码方法结合使用。我们比较了贪婪搜索、束搜索和多样性束搜索的生成结果,并发现使用特殊标记对于实体标记和关系类型可以获得更好的性能。

2. 输入输出模板设计:

我们基于PAED模型使用的模板创建了结构化的输入和输出模板。模板中的标记是添加到模型词汇表中的,具有可训练的参数。我们发现,当模板以关系、头实体、尾实体的顺序排列时,性能更好。这种关系标记在序列开始的位置有助于模型通过改变关系类型来轻松生成同一发言的不同关系。

NLI模型的引入与优化:提高个性信息提取的质量

为了提高从对话中提取个性信息的质量,我们引入了NLI模型,并对其进行了优化。我们利用NLI来过滤掉那些不能从发言中推断出来的“幻觉”个性输出。

1. Persona-NLI模型:

我们使用了ComFact数据集来微调现有的NLI模型,创建了Persona-NLI数据集。这个数据集包含了对话中的发言和个性陈述对,我们将其用于训练NLI模型,以确定发言和提取的个性三元组之间的关系。我们对nli-deberta-v3-base模型进行了微调,并选择了基于F1分数(二元)的最佳Persona-NLI模型。

2. NLI重排和分类:

我们通过生成多个候选项,使用Persona-NLI模型为每个候选项打分,然后选择得分最高的候选项来调整模型的最终生成输出。如果一个候选项与发言有推断关系,我们会调整其最终得分。我们还采用了一种更严格的NLI模型使用方法,即完全移除那些不能由发言推断出来的候选项。

实验设置:评估方法与比较模型

我们通过参考和无参考(内在)指标来评估个性信息提取的性能。对于PersonaExt-PeaCoK数据集,我们有标准答案来衡量准确性。我们还在新的领域(幻想世界LIGHT数据集)中进行了评估,由于缺乏标准答案,我们依赖于内在和手动评估。

1. 参考准确性:

我们使用与Zhu等人(2023b)相同的准确性指标来评估提取的性能。我们还放宽了这个指标,分别评估模型在识别三元组中的头实体、关系和尾实体的性能。

2. 内在指标:

我们定义了话语覆盖率、第一人称指标、独特头实体和独特尾实体的比率,以及从提供的个性描述中成功恢复的个性关系的比率(我们将其称为个性“召回”)。

3. 人工评估:

我们进行了定性分析,两位作者比较了从对话中提取的个性信息与从角色描述中提取的个性信息,以及与角色描述本身。

在实验中,我们比较了我们的模型与现有的最先进模型PAED(Zhu等人,2023b)。我们发现,尽管PAED在原始的零样本设置中表现不佳,但在完全微调后,其性能与我们的模型相当。我们还发现,解码方法对结果的影响不大,这表明我们的模型对于PeaCoK-PersonaExt数据集训练得很好。

实验结果:在PersonaExt-PeaCoK数据集上的表现

1. 总体表现

在PersonaExt-PeaCoK数据集上,我们的模型与现有的最佳模型PAED表现相近。PAED在整体三元组准确性上的表现为0.61,而我们的模型紧随其后,准确性为0.60。PAED在原始的零样本(zero-shot)设置中表现较差,这主要是因为与其他标签相比,“not”标签的可能性最高。原始PersonaExt关系类型较为详细(例如,“school_status”),因此,如果关系类型命名更明确(例如,“attribute_of”而不是“characteristic”),模型可能会表现得更好。

2. 标签准确性与训练频率

从每个标签的得分来看(参见附录表18),所有模型在识别“Characteristic”和“Routine or Habit”关系方面表现最佳,这两个关系在训练数据集中出现频率最高。模型在识别“Experience”、“Goal or Plan”和“Not a Relation”类别方面表现最差。

3. 预测头实体的简易性

除了PAED(零样本)之外,所有模型在识别三元组中的头实体方面的准确性都超过了0.95。这是因为头实体的选项很少,而且训练集中的绝大多数是“i”或“my”。这可能会影响模型的泛化能力,我们在第5.2节中进行了分析。

4. 三元组准确性受尾实体影响

所有模型在预测尾实体方面的表现都不佳,准确性仅为0.55-0.62。尾实体的低准确性降低了整体三元组的准确性,而头实体和关系的准确性分别高于0.97和0.81。预测尾实体的困难很可能是由于其长度通常比头实体的1-3个标记要长,并且尾实体的标记并非都直接来自上下文。

5. 解码方法对结果无影响

我们的模型在贪婪搜索、束搜索和多样性束搜索的三种解码方法中的三元组准确性表现相似。我们认为,模型对PeaCoK-PersonaExt数据集训练得很好,因此最有可能的候选项是最终输出。

新叙事环境下的应用:LIGHT数据集的定性与定量分析

1. 定性分析

由于LIGHT数据集没有真实标签,我们转向内在和人工评估。对于人工评估,我们对所有模型随机抽样的10个角色提取的三元组进行了注释(5304个生成的三元组,包含1556个独特的关系)。整体注释(即“是”或“否”)的一致性为0.90,详细注释的一致性为0.85,通过Krippendorff’s Alpha测量。

2. 定量分析

在新的叙事环境(LIGHT数据集)中,NLI移除(Neutral Removed)对结果影响最大。移除非推断的三元组减少了大约90%的提取的三元组(即不是[no_relation])。这种极端减少也影响了人物召回率和话语覆盖率。Persona-NLI和通用NLI模型之间也存在差异,因为Persona-NLI设置保留了更多候选项。这很可能是因为Persona-NLI模型对(话语,人物)对的格式有更多的暴露。

讨论:模型在新领域适应性的优势与限制

我们的人物提取模型的用例是根据不同于原始训练数据的叙事环境中的角色对话来适应一个角色知识图谱(PeaCoK)。我们通过构建一个包含几个手动注释的LIGHT角色的图谱来展示我们最佳模型的能力,如图1所示。这个图谱可以用于基于人物的对话(Gao et al., 2023)。

从对话中,人物提取模型能够提取超出人物描述的人物信息。例如,虽然从描述中可以明显看出海盗的工作是海盗,并且来自一个村庄,但他们也有一只宠物狗并拥有一把剑。不出所料,使用贪婪搜索的模型在手动接受的人物方面表现最佳,超过了束搜索和多样性束搜索的其他解码方法。这表明了在文本生成的其他领域中看到的“质量与多样性”的权衡。

另一个权衡是“质量优于数量”,因为Neutral Removed模型返回的人物数量明显少于Base和Re-ranking模型。这是一个好处,因为它减少了需要注释的人物数量(例如,每个角色平均提取的人物数量为4-20,而不是70(表7))。由于即使是最佳模型的接受率只有68%,因此仍然需要人工评估步骤。这进一步强化了内在的定量指标与注释之间缺乏明确关系的事实。银色的人物“召回”指标被证明是无信息的,并且最终与返回的人物数量而不是质量指标更相关。

结论与未来工作

本研究的目标是改进从对话中提取角色个性(persona)的方法,并将其应用于新的叙事领域。我们提出了一种基于自然语言推理(NLI)的后处理方法,用于改进训练有素的个性提取模型以适应新的叙事环境。通过将个性提取任务建模为序列到序列(seq2seq)问题,并在PersonaExt数据集上微调BART模型,我们能够从对话中提取适用于任何叙事环境的个性信息。我们的方法在传统的“现实世界”对话数据集(如PersonaChat)和新的幻想领域(如LIGHT数据集)中均表现出色。

1. 研究成果总结:
我们的研究成果显示,通过使用NLI模型对生成的个性候选进行重排和分类,可以有效地提高个性信息的质量。在对LIGHT数据集的评估中,我们发现使用NLI模型移除无法从话语中推断出的个性候选(即非言外之意的关系)是最有效的方法。此外,我们的方法在人工评估中表现最佳,其中68%的提取关系被接受。我们还构建了一个PeaCoK风格的个性知识图谱,展示了如何利用从对话中提取的个性信息来支持角色知识图谱的构建。

2. 未来工作展望:
尽管我们的方法在提取个性信息方面取得了显著进展,但仍存在一些局限性和未来的研究方向。首先,我们的方法假设已有角色的对话数据可用于提取个性信息,但我们的方法仅在对话话语上进行了评估,未涉及其他与角色相关的文本类型,如散文。其次,尽管我们的模型在人工评估中表现良好,但仍有32%的提取关系未被接受,这表明仍需进一步改进模型以提高质量。

未来的工作可以探索以下几个方向:

  • 数据集多样性: 扩展当前的个性提取方法,以处理更多样化的叙事领域和角色类型,包括非对话形式的文本。
  • 模型泛化能力: 提高模型在不同叙事领域中的泛化能力,减少对特定数据集的依赖。
  • 质量控制: 开发更先进的质量控制机制,以进一步减少错误的个性信息提取,并提高模型的准确性。
  • 自动化和人工评估: 结合自动化评估和人工评估,以更全面地衡量提取个性信息的质量和相关性。
  • 伦理和偏见: 研究和缓解可能的伦理问题和偏见,确保个性提取方法不会误用于模仿真实个人。

通过这些未来的工作,我们希望进一步推动个性提取技术的发展,并为创建更具说服力和一致性的对话智能体提供支持。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

你可能感兴趣的:(自然语言处理,人工智能,chatgpt,大模型,论文阅读,论文笔记)