论文粗读“Label-Specific Document Representation for Multi-Label Text Classification”

Xiao L, Huang X, Chen B, et al. Label-specific document representation for multi-label text classification[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 466-475.

摘要

多标签文本分类(MLTC)的目的是标记给定文档的最相关标签。在本文中,我们提出了一个标签特定注意网络(LSAN)来学习新的文档表示。LSAN利用标签语义信息来确定标签和文档之间的语义连接,用于构建标签的文档表示。同时,采用自我注意机制,从文档内容信息中识别特定标签的文档表示。为了将上述两部分无缝集成,设计了一种自适应融合策略,可以有效地输出全面的文档表示,构建多标签文本分类器。在四个基准数据集上的广泛实验结果表明,LSAN始终优于最先进的方法,特别是在低频标签的预测方面。

模型

LSAN由两个主要部分组成。
第一部分是通过同时利用文档内容和标签文本,从每个文档中捕获与标签相关的组件。
第二部分旨在从两个方面自适应地提取适当的信息。
最后,该分类模型可以根据融合的特定于标签的文档表示进行训练。

准备工作
  • 问题定义
    给定数据集,为其中所包含的文本及其对应的标签,为标签的总数。每个文档都包含一系列单词。每个单词都可以编码到一个低维空间,并通过word2vector技术表示为一个维向量。
    表示数据集中的第个文档,是文档中的第个词向量,为当前文档中的词的个数。
    对于文本分类,每个标签都包含文本信息。因此,与文档中的每个字一样,一个标签可以被表示为一个嵌入向量,并且该标签集将由一个可训练的矩阵进行编码。给定输入文档及其相关的标签,MLTC的目标是训练一个分类器来为即将到来的新文档分配最相关的标签。
  • 输入文本的表示
    为了获取每个单词的前后上下文信息,文中采用双向长短期记忆(Bi-LSTM)语言模型来学习每个输入文档的单词嵌入。在时间步,可以通过以下方式来更新输出:
    image.png

    整个文档的表示则可以表示为一个矩阵
    其中为一个时间戳输出词的特征表示,双向即为。当前的文档共包含个词。
Label-Specific Attention Network

该网络旨在从每个文档中确定与标签相关的部分。实际上,这种策略对于文本分类是很直观的。
随即作者给出了一个例子:

regarding the text “June a Friday, in the lawn, a war between the young boys of the football game starte”, it is assigned into two categories youth and sports. Obviously, the content “young boy” is much more related to youth than to sports, while “football game” should be directly related to sports.

  • Self-attention Mechanism
    对于多标签分类的文档而言,每个文档可能包含多个组件,并且一个文档中的单词对每个标签都有不同的贡献。为了捕捉每个标签的不同组件表示,文中采用了自注意机制。因此,标签注意力分数可以由以下的方式获得:
    其中,和是所谓的要训练的自我注意参数。因此,可以得出是一个的矩阵,中的每一行表示所有单词(个单词)对第个标签的贡献。
    由此我们可以计算每个标签关于上下文词的线性组合表示
    它可以作为第个标签上输入文档的新表示。所以整个矩阵是自注意机制下的具有标签相关的文档表示。
    这里的自注意力相当于用自己的信息使用MLP的方式计算了关于query---标签信息的一个得分矩阵,这个得分矩阵是针对词表中的所有词形成的$l×n$的标签-词矩阵,即建立了标签与词之间的相关关系,转置之后也可以说是词与标签语义之间的相关关系。将标签-词的词得分矩阵和词嵌入的矩阵点乘,可以得到每个标签关于当前文档表示H的
  • Label-Attention Mechanism
    自我注意机制只考虑文档内容,可以作为主题注意。众所周知,标签在文本分类中具有特定的语义,它隐藏在标签文本或描述中。为了利用标签的语义信息,将它们进行预处理,并表示为一个可训练的矩阵。
    由得到词嵌入的表示和标签嵌入的表示,为了利用标签的语义信息,将它们进行预处理,并表示为一个可训练的矩阵。我们可以显式地确定每对单词和标签之间的语义关系。其中一种简单的做法就是利用点积:
    上式分别计算了前向语义表示和后向语义表示对于标签信息相关关系。与之前的自注意机制类似,标签特定的文档表示可以通过线性组合标签的上下文词来构建,如下所示。

    该文档可以沿着所有标签进行重新表示
    这种表示是基于标签文本的,因此,作者称之为标签注意机制。
    与自注意力机制不同,这里作者使用标签嵌入矩阵C作query,以显式点乘的方式得出,query和key的相关性系数(即标签和文档之间的相关关系,其前向和后向的相关性得分都可以表示为l×n的矩阵),分别得到对应的相关前向后向标签-词表示进行拼接,同样得到l×2k的标签注意力机制
Adaptive Attention Fusion Strategy

和都是特定于标签的文档表示,但它们有所不同。前者侧重于文档内容,而后者更倾向于文档内容与标签文本之间的语义相关性。为了利用这两部分,作者提出了一种注意力融合策略,自适应地提取适当的信息,并构建全面的特定标签的文档表示。更具体地说,引入了两个权值向量(,)来确定上述两种机制的重要性,它们可以将和通过全连通层得到。

并且规定
然后,我们可以得到沿第 个标签的最终文档表示如下:
所有标签的标签特定文档表示可以描述为矩阵 。

标签预测任务

这里就是普通的多标签分类任务,不进行赘述。


很巧妙的使用两种不同的注意力方式对标签语义信息和文档语义信息进行了表示,不失可解释性。因为在每个batch中相当于我们可以对于batch_size个文本可以得出batch_size个标签得分及表示。在整个数据的前提设定上,其实是包含了整个数据集共享一个潜在的标签语义表示矩阵,只不过,自注意力以自身内容对其进行计算;在基于标签注意力的计算中,则是对其进行了显式化。

你可能感兴趣的:(论文粗读“Label-Specific Document Representation for Multi-Label Text Classification”)