FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue

本文是LLM系列文章,针对《FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue》的翻译。

FutureTOD:将未来知识传授给预训练的语言模型,用于任务导向对话

  • 摘要
  • 1 引言
  • 2 模型
  • 3 实验
  • 4 定性分析
  • 5 相关工作
  • 6 结论
  • 局限性

摘要

基于通用文本的预训练语言模型在NLP场景中取得了巨大成功。但是,一般文本和任务导向对话之间语言模式的本质差异使得现有的预训练的语言模型在实践中用处不大。目前的对话预训练方法依赖于对比框架,并面临着选择真正积极因素和硬消极因素的挑战。在本文中,我们提出了一种新的对话预训练模型FutureTOD,该模型使用自训练框架将未来知识蒸馏到先前对话上下文的表示中。我们的直觉是,一个好的对话表达既能学习当地的上下文信息,又能预测未来的信息。对不同下游对话任务的大量实验证明了我们模型的有效性,特别是泛化、鲁棒性和学习歧视性对话表征能力。

1 引言

2 模型

3 实验

4 定性分析

5 相关工作

6 结论

我们提出了一种新的对话预训练模型FutureTOD,它将未来的知识蒸馏到对话表征中。与现有的对比工作不同,我们采用了一个简单的自我训练框架来相互学习,并消除对比对的要求。我们对各种面向任务的对话任务进行了全面的实验,包括意图分类、域外检测、对话状态跟踪、对话行为预测和反应选择。FutureTOD在所有场景中都显著优于TOD-BERT、DSE和其他强基线。FutureTOD性能卓越,易于部署,无需修改任何模型架构。

局限性

尽管FutureTOD在现有基线的基础上实现了显著的改进,但未来的工作仍有一些方向需要探索:(1)在本文中,FutureTOD没有使用任何数据增强策略来增强表示。我们相信现有的增强方法将有利于进一步提高性能。(2) 我们设计了一种构造教师的简单技巧。应该考虑更复杂的方法,如多教师和大教师。(3) 本文中的FutureTOD关心对话理解任务,如意图检测、对话状态跟踪等。我们希望将类似的想法扩展到生成对话预训练模型和更大的TOD语料库中。此外,利用有限的对话标签也很有价值去探索。

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)