【论文阅读22】Label prompt for multi-label text classification

论文相关

论文标题:Label prompt for multi-label text classification(基于提示学习的多标签文本分类)
发表时间:2023
领域:多标签文本分类
发表期刊:Applied Intelligence(SCI二区)
相关代码:无
数据集:无

摘要

多标签文本分类由于其实际应用而受到学者的广泛关注。多标签文本分类的关键挑战之一是如何提取和利用标签之间的相关性。然而,在一个复杂和未知的标签空间中,直接建模标签之间的相关性是相当具有挑战性的。在本文中,我们提出了一种标签提示多标签文本分类模型(LP-MTC),该模型受到预先训练语言模型的启发。具体来说,我们设计了一套多标签文本分类的模板,将标签集成到预先训练过的语言模型的输入中,并通过屏蔽语言模型(MLM)进行联合优化。这样,就可以在自我注意的帮助下捕获标签之间的相关性以及标签与文本之间的语义信息,从而有效地提高了模型的性能。在多个数据集上进行的大量经验实验证明了该方法的有效性。与BERT相比,LP-MTC在4个公共数据集上的平均性能比micro-F1提高了3.4%。

1.引言

文本分类是自然语言处理(NLP)中的一项基本和重要的任务,已广泛应用于情感分析、文章检索等领域。在传统的文本分类方法中,每个样本都与一个唯一的标签相称。然而,随着数据量的增加,大量的样本被分配到多个标签上,这导致了传统的单标签文本分类方法的失败。例如,在一些跨学科的研究中,一些文章可能同时涉及化学和计算机。因此,我们很自然地提出了多标签文本分类(MTC)方法。
MTC的目标是在整个标签空间中为某个文档确定适当的类别,并给该文档一个不确定数量的标签。近年来,多标签文本分类被广泛应用于情绪分析、主题分类、信息检索、和标签推荐。在实际应用中,由于文档的冗长和复杂,语义信息可能被隐藏在嘈杂或冗余的内容中。此外,标记之间可能存在一些语言相关性,并且不同的标记可能共享文档的一个子集。为了解决这些问题,对MTC的研究视角可以分为以下三类:如何从原始文档中充分捕获语义模式,如何从每个文档中提取与相应标签相关的区别信息,以及如何准确地挖掘标签之间的相关性。
解决MTC最直接的方法之一是将多标签文本分类任务转换为几个二值分类任务,但这往往忽略了多个标签之间的关系。同样,一些深度学习方法,如CNN 和注意机制,可以有效地对文档进行建模,但仍然忽略了标签之间的关系。如图1所示,在由皮尔逊相关系数计算出的Arxiv学术论文数据集(AAPD)中,不同的标签对之间存在特定的相关性。对于标签0和标签1,相关性为1,这意味着这两个标签在所有实例中都会一起出现。因此,对于一些标签信息较少或长尾分布严重的数据集,标签之间的关联可以提供更重要的信息。
【论文阅读22】Label prompt for multi-label text classification_第1张图片
图1 AAPD列组中所有标签对之间的斯皮尔曼相关系数。颜色越浅,标签对就越相关性
近年来,一些方法利用标签结构和内容来捕获标签之间的相关性。一些研究将MTC转化为标签生成模型,以检索多标签的潜在空间。一些方法通过学习标签的表示来得到一个更一般化的分类模型。也有一些方法通过显式地建模列车集中标签之间的关联来预测测试集的标签。然而,当标签文本之间没有太大的差异或缺乏标签文本时,这些模型可能会在分类上失败。此外,在一个未知和复杂的标签空间中建模标签的关联可能是非常具有挑战性的。
大规模的预训练语言模型的出现,如BERT(来自变形金刚的双向编码器表示)和GPT-3 ,使得自然语言处理领域的知识转移更加容易。最近的一些研究表明,为预先训练过的语言模型编写提示可以更好地释放模型的优势,并实现进一步的改进。在提示学习中,任务被形式化为等效的封闭式任务,语言模型用于处理相应的封闭式任务,而不是原始任务。
受基于大规模预训练语言模型的提示学习方法的启发,我们提出了一种标签提示多标签文本分类模型(LP-MTC),通过使用语言模型学习的提示模板中的语义信息来学习标签与文本之间的关系。具体来说,我们将不同的标签映射到不同的标记上,并构建一组标记前缀模板,用于提示学习。在这里,标签可以是不包含文本信息的特殊标记,如[标签1]、[标签2],而不是文本标签,如体育、科学等。通过将前缀模板与语言模型的输入相结合,可以很自然地通过自我注意来捕获模板中包含的标签关联。此外,与现有的设计良好的基于任务的模板相比,我们的方法更为通用,不需要为不同的数据集进行定制。在训练过程中,我们将标记模板与要分类的句子拼接,并将它们输入BERT。在预测时,我们掩盖了所有的标签标记并预测它们。此外,为了更好地利用BERT的预测能力,我们还构建了一个多任务框架,即原始输入的随机掩码标记,并使用掩码语言模型(MLM)来预测掩码标记,以帮助优化多标签文本分类学习任务。我们的贡献如下:

  • 提出了一种标签提示多标签文本分类模型(LP-MTC),该模型将多标签文本分类转换为提示学习任务。特别是,我们为不同的数据集设计了一个通用的提示模板,并在预先训练好的语言模型的帮助下捕获了标签和文本之间的潜在语义关系。
  • 我们使用MLM为联合训练构建了额外的语言模型学习任务,进一步提高了LP-MTC的性能。
  • 我们对不同的多标签文本分类任务进行了广泛的实验,证明了我们的方法在模型性能、标签相关性和时间能力方面的优越性。

2.相关工作

在本节中,我们将介绍一些与我们的研究相关的工作,包括多标签文本分类和提示学习。

2.1 多标签文本分类

多标签文本分类是自然语言处理中的一项基本任务。现有的方法倾向于通过将多标签文本分类任务转换为多个二元分类任务来解决它。有些方法利用了标签之间的配对关联或互作关联。两两比较(RPC)利用两两分类的自然扩展,产生了一种二元偏好关系,将多标签学习任务转化为标签排序任务。
然而,假设一个标签可以与多个标签相关,并利用标签的高阶依赖关系更有效。分类器链(CC)将MTC的任务转换为一组二元分类任务链。k-标签集(RAkEL)构建小的标签随机子集,并将MTC转换为随机子集的单标签分类任务。近年来,随着深度学习的发展,一些研究采用序列学习模型来解决MTC,如序列生成模型(SGM),它们通过RNN解码器生成一个潜在的标签序列。然而序列模型需要在潜在的空间中寻找最优解,当标签太多时,这就太耗时了。
有些方法对标签的联合概率分布进行建模,而不是对特定标签的关联,如贝叶斯网络和无向图模型。Wang等人,通过不良学习框架,加强了多标签的联合分布与预测的多标签之间的相似性。由于图神经网络(GNN)在非欧几里得空间数据建模中的有效性,有些方法使用GNN来捕获标签之间的相关性。标签特定注意网络(LSAN)提出了一种同时考虑文档内容和标签文本的标签注意网络模型,并使用自我注意机制来衡量每个单词对每个标签的贡献。磁铁使用一个特征矩阵和一个相关矩阵来捕获和探索标签之间的关键依赖关系。与上述研究不同,我们的方法采用预先训练好的语言模型,通过即时学习来捕捉标签之间的相关性,从而提高多标签分类的效果。通过自我注意,我们不是明确地表示标签之间的关系,而是直接将带有标签模板的标记输入BERT,让模型自动学习相关性

2.2 提示学习

近年来,提示学习被用来填补预先训练好的语言模型与下游任务之间的客观差异,并充分利用语言模型的可转移性。通过利用语言提示作为上下文,提示学习将下游任务转换为阻塞式任务。
少样本分类学习分类器只给出每个类的少数标记的例子。一些最早的研究旨在通过在很少样本的情况下迅速学习来解放语言模型的能力。基于层次的优化相结合的完草问题,并展示了提示学习与BERT、GPT-3和其他语言模型相结合的能力。渐渐地,一些手工提示被广泛探索,例如,在神经语言推理和情绪分类。PTE利用完形填空法成功地解决了小样本中的文本分类和自然语言推理问题。Chen和Zhang 提出了一种基于问题的方法,将与标签相关的问题与每个候选句子联系起来,以帮助语言模型更好地理解少样本学习中的文本分类任务。
为了避免劳动密集型的提示设计,自动提示搜索已被广泛探索。自动提示自动创建一组不同任务的提示,并显示MLM执行情绪分析和自然语言推理的内在能力。有些方法还使用了一种自动的方式来将提示符中的单词映射到适当的类别。LM-BFF采用Seq-to-Seq模型来生成提示学习的候选对象。也有研究直接使用一系列可学习的顺序嵌入作为提示,而不是离散的语言短语。但是大多数自动生成的提示的性能不如手动选择的提示。
与以往的其他研究不同,我们的方法旨在探索提示学习在多标签文本分类中的应用,而不是专注于少样本学习。此外,我们的方法不需要为每个数据集构建由自然语言短语或单词组成的不同模板。相反,我们使用一系列专门定义的token来表示标签提示符。

3.初步准备工作

首先,我们出发并描述了MTC任务和提示学习。对于一个给定的文本x = {w1,w2,…,wm}和它的真实标签y = {y1,y2,…,yL},L表示标签的数量,那么MTC任务的目标是学习一个映射函数 χ : x → y : { 0 , 1 } L χ: x→y:\lbrace 0,1\rbrace^L χxy{0,1}L
在提示学习中,通常需要以下三个步骤来构建一个提示学习的管道:

  • 为不同的任务构建提示式模板。以电影情感二分句为例,“这部电影太感人了!”,提示学习或称为提示调优,通常生成一个新的句子,由前缀/后缀模板τ输入:“这部电影太感人了!”我[Mask]它!”[Mask]可以是“爱”或“恨”,分别表示积极或消极的情绪。带有前缀模板的新输入可以表示为:
    【论文阅读22】Label prompt for multi-label text classification_第2张图片
    其中||表示连接。
  • 通过语言模型搜索模板的最优答案。在训练过程中,提示学习通常与语言模型相结合来预测掩码标记信息。形式上,给定一个带有词汇表V的语言模型M和带有掩码m的新输入x,提示学习的目标是预测掩码token w的概率 p M m ( w ∣ x ′ ) p^m_M(w|x') pMmwx,其中w∈V和 p M m ( w ∣ x ′ ) ∈ R ∣ V ∣ p^m_M(w|x')∈R^{|V |} pMmwxRV表示token的概率分布向量。要预测的标记通常反映了句子的分类。
  • 将搜索到的答案映射到标签空间。一般来说,预测的标记与实际的类别不同,因此需要通过映射或称为表达器的方法将特定的标记分配给相应的类别。例如,在图2中,被映射为一个积极的类别,被映射为一个消极的类别。通过这种方式,即时学习可以将二元情绪分类任务转换为封闭式的任务。
    【论文阅读22】Label prompt for multi-label text classification_第3张图片
    图2:构建输入的提示示例

4.方法

在本节中,我们详细描述了所提出的模型,如图3所示。首先,我们需要设计一套提示模板,可以用于多个标签任务,以便在输入中显示标签信息。在此之后,我们需要使用语言模型在模板中学习[Mask]标记。然后,我们还通过随机掩蔽原始输入的标记来构建一个多任务框架,并使用MLM来预测掩蔽标记。

4.1提示模板

对于提示学习,虽然一些研究已经证明了模板方法的优势,但不清楚相同的模板是否适用于每个模型,也不清楚哪样的模板更适合模型。对于MTC,由于不同的文档包含不同数量的真标签,并且不同数据集的标签空间大小不一致,所以很难为每个标签构建特定的模板。为此,我们为整个标签空间构建了一个模板系统。首先,每个位置上的不同标签应该有三种不同的状态:1、0或掩码。为了方便起见,让我们把它们写成Y,N和M。我们强调不同标签的顺序,这对标签的预测非常重要。此外,我们还引入了一个基于位置的提示,允许BERT清楚地识别当前标签的位置。具体来说,我们对每个标签token l∈{Y,N,M}采用以下生成方法Γ:
【论文阅读22】Label prompt for multi-label text classification_第4张图片
其中[.]表示BERT的特殊标记, [ L S ] [L_S] [LS]表示标签的开始标记, [ L E ] [L_E] [LE]表示结束token,p表示标记在模板中的位置。举个例子:给定一个带有掩码的标签序列[1,0,mask],我们生成的模板为 [ L S 1 ] [ Y 1 ] [ L E 1 ] [ L S 2 ] [ N 2 ] [ L E 2 ] [ L S 3 ] [ M 3 ] [ L E 3 ] [L^1_S][Y^1][L^1_E][L^2_S][N^2][L^2_E][L^3_S][M^3][L^3_E] [LS1][Y1][LE1][LS2][N2][LE2][LS3][M3][LE3],如图3所示。通过构建多标签提示模板,我们可以自然地将标签注入到语言模型的输入中,并学习自我注意更好的表示。
【论文阅读22】Label prompt for multi-label text classification_第5张图片

图3 LP-MTC模型结构。以前缀模板为例,绿色的框表示未掩蔽标记,橙色的框表示掩蔽标记,灰色的框表示原始输入标记

4.2对语言模型的提示学习

接下来,我们将标签预测与语言模型的MLM任务相结合。MLM是经过预训练的语言模型中的一项基本任务。它迫使模型通过随机屏蔽输入句子中一定比例的标记来预测掩蔽词。这有助于模型理解掩蔽位置的上下文,导致该模型具有更好的性能。具体来说,我们在提示模板中屏蔽中心标记(只有Y或N),以15%的概率表示BERT。此外,为了更好地结合语言模型的性能,我们还以相同的概率随机掩码了原始句子中的标记。在实际应用中,LP-MTC可以应用于各种语言模型,本文采用了应用最广泛的BERT模型。
在实践中,为了将标签模板引入到MLM任务中,我们在语言模型中添加了特殊的标记,如图3所示的 [ L E 3 ] [L^3_E] [LE3]。因此,我们应该将语言模型V的词汇表扩展到V’,其中|V’| > |V |和语言模型的目标可以修改为 p M m ( w ′ ∣ x ′ ) p^m_M(w'|x') pMm(wx),其中w∈|V’|。

4.3训练与推理

在明确了提示学习的学习目标后,我们对LP-MTC进行了更详细的训练和推理过程。
正向传播在模板生成后,我们将其作为原始句子的前缀,并将x’一起输入到训练前的模型中。训练过程有两个主要目标:基于提示模板预测标签分布,并预测原始句子和模板的掩码标记。假设BERT的输出为 O ∈ R ∣ x ′ ∣ m a x ∗ 768 O∈R^{|x'|max∗768} ORxmax768,则通过使用一层具有激活功能的全连接,可以得到标签的分布预测和掩蔽token的预测:
在这里插入图片描述
其中, ∣ x ′ ∣ m a x |x'|_{max} xmax表示最大token长度, W l ∈ R 768 ∗ L W_l∈R^{768∗L} WlR768L W m ∈ R 768 ∗ ∣ V ′ ∣ W_m∈R^{768∗|V'|} WmR768V O [ i d l ] O[id_l] O[idl]表示基于标签标记的索引的张量选择。
联合损失 我们使用二值交叉熵(BCE)作为MTC的损失函数,而交叉熵作为MLM的损失函数。BCE损失可以写成如下内容:
【论文阅读22】Label prompt for multi-label text classification_第6张图片

在写论文的时候,可以把张量计算,损失函数都写进去。

其中 Y t Y_t Yt为实际的真值标签, P l i P_{li} Pli表示第i个标签的概率。最终的联合损失函数为:
在这里插入图片描述
推理 在推断时,我们在模板中掩码所有的标签token,并计算所有掩码标签的概率。与训练不同,我们此时不需要执行MLM任务,因为提示模板中的token可以很容易地预测标签分布。我们将标签的输出表示为 O l O_l Ol,并使用逻辑sigmoid型函数进行概率归一化:
【论文阅读22】Label prompt for multi-label text classification_第7张图片
然后,所有大于0.5的概率值都被预测为正标签,否则就被预测为负标签。模型推理过程如图4所示。
【论文阅读22】Label prompt for multi-label text classification_第8张图片

5实验

5.1数据集

鉴于多标签文本分类的广泛应用,我们将我们的方法应用于不同类型的数据集来验证LP-MTC的有效性。数据集的统计数据如表1所示。

  • AAPD.Arxiv学术论文数据集(AAPD)是一个广泛应用于多学科学术论文的大规模分类数据集。其目的是通过摘要来预测一篇学术论文的主题。一篇学术论文可以有多门学科,共计54门学科。
  • Reuters 网站的报道。路透社新闻文本数据集,创建于1987年,它一直是MTC的标准基准。我们遵循的分类标准,并使用了90个类别。
  • Emotion一个最大的手动注释数据集,58k英语Reddit评论的细粒度情绪分类,标记为27个情绪类别和中性,总共28个类别。83%的数据包含单个标签,15%包含两个标签,其余4%包含两个以上的标签。
  • Toxic Comments来自Toxic评论分类挑战竞赛的数据集包含了可能被认为是亵渎、粗俗或冒犯性的文本。我们删除了那些不携带任何负面情绪的评论,并只保留了16,225条有标记的记录作为我们的数据集。我们以7:3的比例随机分割了训练集/测试集。
    【论文阅读22】Label prompt for multi-label text classification_第9张图片

5.2 评价指标

与相同,汉明损失和macroF1评分被用于主要的评价指标。此外,我们还使用微精度和微召回率来进行进一步的评价。

  • micro-F1。它可以被解释为精度和查全率的加权平均值。它通过计算每个数据集的总真阳性、假阴性和假阳性来全局计算指标。具体来说,给定第i类的真阳性T Pi、假阳性FPi、假阴性F Ni和真阴性T Ni,微召回可以表示为:
    【论文阅读22】Label prompt for multi-label text classification_第10张图片
  • 汉明损失(HL)。根据预测结果 Y ^ ∈ R N ∗ L \hat{Y}∈R^{N∗L} Y^RNL和地面真实标签 Y ∈ R N ∗ L Y∈R^{N∗L} YRNL,直接计算出误分类标签的比例为:
    【论文阅读22】Label prompt for multi-label text classification_第11张图片
    其中, Ξ ( Y n l , Y ^ n l ) Ξ(Y_{nl},\hat{Y}_{nl}) ΞYnlY^nl是一个指示器函数。 Ξ ( Y n l , Y ^ n l ) = 1 Ξ(Y_{nl},\hat{Y}_{nl})=1 ΞYnlY^nl=1,如果 Y n l = Y ^ n l Y_{nl} =\hat{Y}_{nl} Ynl=Y^nl,else Ξ ( Y n l , Y ^ n l ) = 0 Ξ(Y_{nl},\hat{Y}_{nl})=0 ΞYnlY^nl=0。因此,HL = 0意味着每个样本的所有标签都被分配了正确的值。由于多标签文本中标签的稀疏性,汉明标签的丢失通常是一个很小的十进制(有许多0个标签)

5.3 基线模型

我们参考相应的官方源代码,并将LP-MTC与广泛可用的基线进行比较:

  • CNN 。利用卷积神经网络提取文本特征,输出标签在标签空间中的分布。
  • BiLSTM注意。在最后一层采用自注意的2层LSTM神经网络得到文档表示,并通过逻辑回归对每个标签进行预测。
  • SGM 将MTC视为一个序列生成问题,并应用一个具有新的解码器结构的序列生成模型来解决它。我们使用官方代码来实验原始论文中没有出现的数据集,并使用官方文档中给出的参数。
  • BERT基于自我注意的预训练语言模型。我们对不同的下游任务进行了不同的微调。
  • BERT+MLM在基本的BERT分类上,还添加了额外的MLM任务。我们想看看MLM对下游任务是否有效。
  • Label-Wise (LW) LSTM with PT and FT。通过预训练模型获得了具有标签感知信息的文档表示,并对不同的下游任务进行了细化。PT为训练前的方法。FT表示对下游任务的微调方法。我们使用官方代码4来实现我们的实验结果。对于原始文本中未探讨的实验数据,我们使用源代码中给出的参数配置作为我们的实验参数。由于所有数据集的文本长度都相对较短,所以我们使用LW-LSTM作为原文中所建议的编码器。
  • LP我们的方法没有额外的MLM任务。
  • LP-MLM.我们的方法与额外的MLM任务。

5.4详细信息

我们将基于bert的模型的学习率设置为5e-5,批量大小设置为16,epoch设置为40。我们将warm up比率设置为0.1,将MLM的掩模概率设置为0.15。对于基线模型CNN和BiLSTM注意,我们将学习率设置为0.0003,隐藏大小设置为512。我们使用AdamW作为优化器。所有的代码都由PyTorch实现,并运行在一个NVIDIA RTX 3090上。

5.5总体结果

我们在表2、表3、表4和表5中报告了我们的方法在所有数据集上的实验结果。我们计算了所有基线的微精度、微召回率、微f1和汉明损失。
在大多数情况下,我们的方法在所有数据集上的micao-f1损失和汉明损失上都获得了最优的结果,这可以从两个方面来解释:

  • 提示模板的构建和使用有助于语言模型捕捉标签与其上下文之间的相关性;
  • MLM的使用进一步提高了语言模型对下游任务的调优效果。

我们通过将基于LP的方法(LP和LP-MLM)与不使用提示模板的方法(BERT和BERT-MLM)进行比较,确认了第一点。我们发现,在大多数情况下,LP有显著的性能提高,这表明将MTC转化为提示学习任务可以促进分类效果。提示模板可以被视为语言模型的特殊输入,因此语言模型可以学习模板中包含的标签信息。当我们将标签和原句子一起输入到BERT中时,这相当于为标签构建相应的上下文,而自我注意可以敏感地捕捉到原句子中不存在的上下文关系。用这种方式,我们引入标签之间的关联,可以提高模型理解标签上下文的能力。
对于第二点,我们也注意到,添加MLM可以进一步提高LP和BERT的性能,这说明了联合训练的有效性。我们从Bert的本质来解释这一现象。由于BERT本质上是一个MLM,允许BERT继续学习不同下游任务的掩码令牌,可以使模型更适合于下游任务,从而进行更好的分类。
此外,我们还注意到,对于不同的数据集,LP-MLM与BERT-MLM相比的改进也不同。对于大标签空间的AAPD、Reuters和Emotion,LP-MLM分别提高了1.47%、3.64%和2.97%,而对于只有6个标签的Toxic,提高了1.04%。这表明,通过引入标签之间的相关性所带来的改进可能是与标签空间的大小有关。此外,模型的性能也与数据集的特殊性有关。例如,所有模型的micro-F1值通常很低,情感是一个细粒度的情绪数据集,很难区分。

在我写论文的时候也可以直接说数据集本身就是有问题的,很难达到很好的性能。

【论文阅读22】Label prompt for multi-label text classification_第12张图片
【论文阅读22】Label prompt for multi-label text classification_第13张图片
【论文阅读22】Label prompt for multi-label text classification_第14张图片
【论文阅读22】Label prompt for multi-label text classification_第15张图片

6.分析

在本节中,我们将进一步分析我们提出的模型,包括提示模板的设计和可视化分析。

6.1注意力可视化

BERT的中间层已经被证明可以充分地捕捉到单词之间的语义关系。在LPMTC中,每个潜在的标签都可以被视为一个单词或一个标记,因此我们验证了LP-MTC如何通过可视化每一层的注意力来捕获标签的相关性。

图5(a)、6(a)和7(a)显示了AAPD、 Toxic和Reuters测试集的不同标签之间的斯皮尔曼相关性。
【论文阅读22】Label prompt for multi-label text classification_第16张图片
图5 AAPD测试集的前11个标签的Spearman相关系数与不同BERT层的注意力可视化。颜色越浅,其值越大
【论文阅读22】Label prompt for multi-label text classification_第17张图片
图6 Toxic测试集不同BERT层的所有标签的Spearman相关系数和注意可视化
【论文阅读22】Label prompt for multi-label text classification_第18张图片
图7路透社测试集前11个标签的斯皮尔曼相关系数与不同BERT层的注意力可视化
为了便于观察,我们选择了与AAPD和路透社相关性较高的前11个标签。与图1相似,测试标签的相关分布与训练数据集的类似相关分布相当。
然后,我们以不同BERT层的注意输出参数作为可视化的输入。我们平均所有的注意力头,并在所有的标签对之间选择注意分数。我们将所有批次相加,得到测试集上的全局得分矩阵,并对其进行归一化。我们选择第二层、第六层和最后一层的注意矩阵进行可视化。
从可视化结果中,我们发现浅层的BERT学习了一些粗略的信息,比如标签与自身的相关性(图5(b),但是相关性可能是很弱的,并且经常捕获不相关的标签(图。6(b)和7(b).第6层更注重局部相关性,闭合标签0和1之间的相关性得到了很好的捕获,如图5©所示。然而,我们也发现,一些没有相关性的局部标签被错误地分配为高相关性,如图6©中的标签2和标签4。
最后一层的注意力更接近于原始的标签相关性分布。与第6层相比,它不仅可以学习AAPD的标签0和标签1之间的关系,还可以学习更遥远的标签对之间的相关性,如标签2和标签4图5(d)对ToxicReuters也进行了类似的观察。对于如图所示的毒性。校正了第6层的误差相关性,并正确地捕获了标签1和标签2之间的高相关性。这表明,深度BERT可以捕获标签之间的相关性,这也为LP-MTC的优势提供了一个有效的解释。

6.2损失可视化

为了进一步探索和比较不同模型的优化过程,我们分别在四个数据集上可视化了MTC和MLM任务的损失值。
如图8所示,当在模型中添加MLM任务时,BERT和LP的优化过程在不同的数据集上呈现出相似的趋势。随着模型的训练,MLM和MTC的损失减少和平稳。然而,MLM任务具有更大的标签空间和更多的预测值(占所有令牌的15%),因此优化速度更慢,损失值比MTC具有更大的数量级。此外,我们注意到MTC任务的收敛速度很快,通常在50步之前就变平了,这表明像BERT这样的语言模型可以很容易地学习文档标签。我们还注意到,LPMLM方法可以使MTC任务在训练样本上比在AAPD、Emotion和 Reuters的BERT-MLM更快,说明LP可以帮助模型更好地学习。此外,我们还注意到Toxic数据集的特殊性。LP-MLM和Bert-MLM的损耗变化差别不大,收敛速度,如图8(h)和(g)所示。这是由于与其他三个数据集相比, Toxic的标签空间更小。
【论文阅读22】Label prompt for multi-label text classification_第19张图片
【论文阅读22】Label prompt for multi-label text classification_第20张图片
【论文阅读22】Label prompt for multi-label text classification_第21张图片
【论文阅读22】Label prompt for multi-label text classification_第22张图片

6.3λ的选择

根据MTC和MLM损失的变化,我们也选择了不同的λ来研究MLM任务权重对模型性能的影响。我们设置了不同的λ∈[1,0.1,0.01,0.001],并观察了LPMLM在不同λ下的性能。如图9所示,对于两个不同的数据集,在λ=为0.01时,性能最好。
【论文阅读22】Label prompt for multi-label text classification_第23张图片
图9不同λ量级下的模型性能。红线表示没有MLM任务的LP结果。由于λ对模型性能的影响较小,我们重置了纵坐标的起始值以突出差异

虽然较大或模糊的λ对模型也有积极的改进,但推广的效果略低。一个较大的λ可能会使MLM任务对主任务MTC的影响太大,从而影响到模型的学习效率。相比之下,一个小的λ将减少MLM的影响,从而干扰联合学习模型。
对于多任务学习,不同的任务损失应该是相似的程度。然而,在实验过程中,由于不同数据集的特殊性,最优λ的值趋于波动,因此我们不探讨特定值的影响,而是旨在给出一个粗略的数量级。在我们的实验中,我们根据勘探结果将所有数据的λ统一设置为0.01。

6.4不同的提示策略

不同的模板可能对同一个任务有不同的影响。作为比较,我们比较了两种不同的标签模板生成方法。

  • END 它将模板作为后缀添加到要分类的文档的结尾。具体来说,我们将(1)修改为:
    在这里插入图片描述
  • SAME它不区分不同标签的位置信息,而是用相同的特殊标记表示。具体来说,我们将(2)修改为:
    在这里插入图片描述对于exmaple,给定一个带有掩码[1,0,掩码]的标签序列,我们生成模板为 [ L S ] [ Y ] [ L E ] [ L S ] [ N ] [ L E ] [ L S ] [ M ] [ L E ] [L_S][Y][L_E][L_S][N][L_E][L_S][M][L_E] [LS][Y][LE][LS][N][LE][LS][M][LE].
    不同模板生成策略的影响效果见表6。

表6在不同提示温度条件下的模型性能
【论文阅读22】Label prompt for multi-label text classification_第24张图片
使用END模板的结果略低,毒性下降0.0026微f1,情绪下降0.0184微f1。这表明,当使用适当的标记构建模板时,模板的位置对模型的性能影响很小。SAME方法比END方法对模型性能的负面影响更大,尤其是对情绪法。因为LP-MLM为不同的标签生成不同的标记,所以该模型在学习标签时做出了明确的区别。然而,当SAME方法被采用,标签之间没有显著差异,导致预测的混淆和性能下降。.情感比有毒有更大的标签空间,所以相同的对情感的影响更大。

这个地方很值得借鉴,在构建模型的时候可以分为几种类型
标签位置:前缀模板、后缀模板
分隔符号:每个标签一个分隔符、标签和文本一起一个分隔符、不加分隔符
这时候排列组合就有以下几种情况
1.在前面+不加分隔符
2.在后面+不加分隔符
3.在前面+每个标签一个分隔符
4.在后面+每个标签一个分隔符
5.在前面+标签和文本分隔符
6.在后面+标签和文本分隔符
通过这个实验可以探索,预测结果是与位置有关还是与分隔符有关,还是与二者都有关

6.5耗时

我们进一步计算了LP-MTC在不同数据集上的时间成本,以探索该方法的实际可行性。直观地说,训练的经过时间取决于序列的输入长度,这决定了自我注意计算的量。
标签空间越大,输入序列就越长。因此,为了便于比较,我们选择了标记最少的数据集,Toxic的和标记最多的数据集,即 Reuters进行比较。我们报告了不同模型的每个时期的平均运行时间,如图10所示。
【论文阅读22】Label prompt for multi-label text classification_第25张图片
我们发现,与BERT相比,BERT-MLM增加了训练时间,因为增加了MLM辅助任务。与Bert-MLM相比,LP-MTC的改进是由于使用了标签模板,这增加了输入标记的长度。因此,拥有大标签空间的 Reuters比Toxic需要更多的时间。然而,总的来说,LP-MLM仅略微增加了模型的训练时间。

7.结论

在本文中,我们提出了用于多标签文本分类的LP-MTC模型。我们为多个标签的前缀提示模板,将MTC转换为提示学习任务,并将训练与MLM相结合,提高模型在各种评价指标下的性能。我们的方法可以释放预先训练过的语言模型的能力,并使用自我注意来捕获不同标签标记之间的相关性。此外,我们的方法不需要使用额外的标签文本信息,可以在标签是匿名的时候应用。此外,我们通过可视化分析验证了LP-MTC捕获相关性的能力,并且LP-MTC可以在针对多种类型的数据集的测试中表现良好。

我的阅读总结:这篇论文想要说明的工作真的不是很突出,但是人家的实验做的很充分,看来有的时候写论文也是看字数的。

你可能感兴趣的:(论文阅读笔记,prompt,人工智能,深度学习)