论文笔记“Topic-Features for Dialogue Summarization”

Zhang, Z., Li, J. (2022). Topic-Features for Dialogue Summarization. In: Lu, W., Huang, S., Hong, Y., Zhou, X. (eds) Natural Language Processing and Chinese Computing. NLPCC 2022. Lecture Notes in Computer Science(), vol 13551. Springer, Cham. https://doi.org/10.1007/978-3-031-17120-8_26

摘要导读

像新闻报道和学术论文这样的文本基本来自于一个单一的说话者,并且结构良好。而对话往往来自于两个或更多的说话者用于交换信息。在这种情况下,对话中的主题或意图可能会发生变化,而且关键信息往往分散在不同说话人的话语中,这给抽象化的对话总结带来了挑战。由于噪音太大,加上对话的固有特点,传统的话题建模方法很难应用。为了有效地对整个对话进行建模并捕捉各种话题信息,本文提出了一种基于神经话题模型的话题特征方法,包括词级嵌入和对话级表示。首先,提出的方法引入了神经主题模型(NTM),它由两个子模块组成:推理模块和生成模块。推理模块利用神经网络来推断每个输入文本的话题分布,而生成模块则应用它来重构输入。基于输入对话的话题分布应该与相应的摘要一致这一假设,本文通过Kullback-Leibler(KL)散度来约束话题分布信息。其次,为了获得话题信息并从不同层面提取语义话题,本文从词层面和对话层面提取面向话题的嵌入信息,并将其应用于序列到序列模型的嵌入层。

对话摘要任务:其目的是压缩对话,将其中的主要信息提炼成更短的信息,这可以帮助人们有效地捕捉对话的重点,而不需要耗费时间进行对话阅读和理解。

问题形式化定义

给定对话,模型的目标是输出对话的总结,其中包含个对话, 则是由个词构成的总结。-th对话可表示为词序列的形式:

分别是对话的开始和结束标签。除此之外,每个 和每个参与对话的人 相关联,最终每个对话 可以形式化为:

方法浅析
  • 传统NTM

    其中inference stage是传统VAE的encoder部分,用于生成输入文档的主题分布,在generation stage则是则额外引入了主题表示(随机初始化)和词表示用于生成主题-词分布:
    那么对于给定样本其生成的Loss函数如下:

  • 模型结构

    通过改进NTM引入词级别和对话级别的语义表示在主题表示上的对齐,然后输入到BART中得到更好的编码表示:
  1. 本文有一个基本的假设:输入对话的主题分布应该与相应的摘要一致。首先给传统的NTM两个输入:代表由词袋模型表示的对话,表示对应的目标句子,即总结。这两个的主题表示应该是一致的:

    除此之外,本文使用BART的词表示对进行初始化,然后在生成阶段利用和得到词级别的主题表示和对话级别的主题表示:

    具体在生成模块的操作如下:
    这一部分的Loss函数如下:

  2. 在第二阶段,具有Transformer结构的Seq2Seq模型被广泛用于对话总结任务中。编码器模块用于对输入的对话进行编码,而解码器则生成摘要。
    而从前序的NTM中,一方面可以得到词级别的话题嵌入,为每个词分配一个话题表示。另一方面,可以得到对话级别的话题表示,它总结了整个对话的话题信息。
    a, 首先,整合词级别的主题嵌入信息

    词级别的主题嵌入表示作为一种额外的信息,分别加入了source和target中。以source这边的输入为例,具体可以表示为:
    涉及到的嵌入表示分别为词嵌入Token Embedding,位置嵌入 Position Embedding和词级别主题表示 Topic Word Embedding。target侧的输入也是如此。
    b,对话级别的主题嵌入信息
    对话级别的主题嵌入信息给出了输入对话的概况。因此,在source这边,本文在引入词级别的主题信息之后,还融入了对话级别的主题嵌入表示,将其输入更新为:
  3. 最终的两个阶段的联合损失函数如下:

本文通过改进NTM引入了不同级别的主题信息,使模型利用了数据集中所有的语义信息。妙啊!


你可能感兴趣的:(论文笔记“Topic-Features for Dialogue Summarization”)