部分标签学习(PLL)是一个重要的问题,它允许每个训练示例使用一个粗略的候选集进行标记,这非常适合许多具有标签模糊性的真实数据标注场景。尽管有这样的承诺,PLL的性能往往落后于监督的同类产品。
在这项工作中,我们通过在一个连贯的框架中解决PLL表征学习和标签消歧中的两个关键研究挑战来弥合这一差距。具体来说,我们提出的框架PiCO包括一个对比学习模块和一个新的基于类原型的标签消歧算法。
PiCO为来自同一类的示例生成紧密对齐的表示,并有助于消除标签歧义。理论上,我们证明了这两个组成部分是互惠互利的,并且可以从期望最大化(EM)算法的角度严格证明。
1. INTRODUCTION
现代深层神经网络的训练通常需要大量的标记数据,这给数据收集带来了巨大的障碍。在一个特殊的挑战中,现实世界中的数据注释自然会受到固有的标签模糊性和噪声的影响。例如,如图所示
1.对人类注释者来说,从西伯利亚哈士奇犬中识别阿拉斯加雪橇犬可能很困难。在许多应用中,标签模糊的问题很普遍,但往往被忽视,例如web挖掘和自动图像注释。这就产生了部分标签学习(PLL)的重要性,其中每个培训示例都配备了一组候选标签,而不是确切的gt标签。这与受监督的对应标签形成对比,后者必须选择一个标签作为“gold”。可以说,PLL问题在各种情况下被认为更常见、更实用,因为它的成本相对较低。尽管有这样的承诺,PLL的一个核心挑战是标签消歧,即识别gt候选标签集中的真值标签。
本文在一个连贯、协同的框架下,通过协调表征学习和标签消歧这两个高度相关的问题之间的内在张力,弥合了这一差距。我们的框架,部分标签学习与对比标签消歧(简称PiCO),为来自相同类的示例生成紧密对齐的表示,并有助于消除标签歧义。具体来说,PiCO封装了两个关键组件。首先,利用对比学习(CL)来进行部分标签学习,为了缓解构建正对的关键挑战,我们利用分类器的输出并生成伪正对进行对比。其次,基于学习到的embedding,提出了一种新的基于原型的标签消歧策略。基于最接近的类原型,逐步更新用于分类的伪目标。通过交替上述两个步骤,PiCO收敛到一个具有高度可分辨表示的解决方案,以实现精确分类,根据经验,PiCO在三个基准数据集上建立了最先进的性能,显著优于基线(第4节),并获得了与完全监督学习相竞争的结果,理论上,我们证明了我们的对比表征学习和基于原型的标签消歧是互利的,并且可以从期望最大化(EM)算法的角度进行严格解释。首先,经过改进的伪标记通过准确地选择伪阳性例子来改进对比学习。这可以类似于E-step,在E-step中,我们利用分类器的输出将每个数据示例分配给一个特定于标签的集群。其次,更好的对比性能反过来提高了表达的质量,从而提高了标签消歧的有效性。
2. BACKGROUND
与监督学习设置相同,PLL的目标是获得预测与输入相关的一个真实标签的功能映射。然而,不同的是,PLL设置承担了更多的不确定性标签空间。PLL的一个基本假设是,gt真值标签yi隐藏在其候选集中。因此,与具有明确基本事实的有监督学习任务相比,学习过程可能存在固有的模糊性。
PLL的关键挑战是从候选标签集中识别gt标签。在训练过程中,我们为每个图像分配一个归一化向量si作为伪目标,其条目表示标签为基本真理的概率。总概率质量1分配给Yi中的候选标签。请注意,si将在培训过程中更新。理想情况下,si应该在训练过程中对(未知)地面真相标签yi施加更多概率质量。我们训练一个分类器f:X→ [0,1]C使用交叉熵损失,以si为目标预测。每个样品的损失由下式给出:
分类器的输出用于确定对比学习的积极同伴。然后使用对比原型逐步更新伪目标。动量嵌入由一个队列结构来维持 "//" 意味着停止梯度。
3. METHOD
PiCO由两个关键组件组成,分别解决表示质量和标签模糊性。在第5节中,我们进一步从EM的角度对PiCO进行了严格的理论解释
3.1 PLL的对比表征学习
3.1.2 Training Objective
首先,给定每个示例(x,Y),我们通过随机数据扩充方法Aug(x)。然后,这两个图像被送入一个query网络g(·)和一个key网络g′(·),产生一对L2规范化embedding q=g(Aug-q(x))和k=g′(Aug-k(x))。在实现中,查询网络共享相同的卷积块作为分类器,后面是预测头。key网络使用query网络的动量更新。此外,我们还维护一个存储最新key embedding k的队列,并按时间顺序更新队列。为此,我们有以下对比embedding pool:
其中,Bq和Bk是与当前小批量的query和key视图相对应的向量嵌入。给出一个示例x,通过将其query embedding与pool A的其余部分进行对比,来定义每个样本的对比损失
其中P(x)是正集,A(x)=A \ {q}。τ ≥ 0 is the temperature
3.1.3 Positive Set Selection.
关键的挑战是如何构造正集P(x)。我们建议使用来自分类器的预测标签
请注意,我们将预测标签限制在候选集合Y中。然后选择以下正面例子
其中,y’是k′的相应训练示例的预测标签。为了提高计算效率,我们还维护了一个标签队列来存储过去的预测。换句话说,我们将x的正集合定义为那些具有相同近似标签预测〜y的示例。尽管其简单,但我们表明,我们的选择策略在理论上是合理的,并且也会产生更好的实证结果。综合起来,我们共同训练分类器和对比网络。总体损失函数为:
尽管如此,我们通过CL学习高质量表示的目标依赖于准确的正集选择分类器预测,这在标签模糊的情况下仍然没有得到解决。为此,我们进一步提出了一种基于对比嵌入的标签消歧机制,并证明这两种机制是互利的。
3.2 基于原型的标签消歧
正如我们所提到的,对比损失在嵌入空间中产生了聚集效应。作为一种协作算法,我们介绍了我们新的基于原型的标签消歧策略。重要的是,我们保留了一个原型嵌入向量µc
对应于每个类c∈ {1,2,…,C},可以看作是一组代表性的嵌入向量。毫无疑问,伪目标分配的一个简单版本是找到最接近的目标原型
当前嵌入向量。值得注意的是,这个原语类似于聚类步骤。此外,我们还通过使用移动平均方式公式来软化这个硬标签分配版本。为此,我们可以直观地假设,原型的使用与对比术语带来的嵌入空间中的聚类效应建立了联系。
3.2.1 Pseudo Target Updating
我们提出了一种softened and moving-average策略来更新伪目标。具体来说,我们首先用均匀分布初始化伪目标
然后,我们通过以下移动平均机制对其进行迭代更新
φ∈ (0,1)是一个正常数,µj是对应于第j类的原型。直觉是,拟合统一的伪目标会导致分类器的良好初始化,因为对比嵌入在开始时不易区分。然后,移动平均策略将伪目标平滑地更新为正确的目标,同时确保训练的稳定性;在第5节后面提供了更严格的验证后,我们对原型进行了如下解释:(i)对于给定的输入x,最接近的原型表示其gt类别标签。在每一步中,s都有向z根据式(6)定义的一个热分布轻微移动的趋势;(ii)如果一个示例始终指向一个原型,伪目标s可以(几乎)以最小的模糊度收敛到一个热向量。
3.2.2. Prototype Updating
更新原型嵌入的最规范的方法是计算在训练的每一次迭代中都会用到它。然而,这将导致沉重的计算代价,进而导致无法承受的训练延迟。因此,我们以类似的移动平均方式更新类条件原型向量
其中,c类的动量原型µc由标准化query embedding q的移动平均值定义,其预测类符合c。γ是一个可调超参数
3.3 SYNERGY BETWEEN CONTRASTIVE LEARNING AND LABEL DISAMBIGUATION
虽然看似彼此分离,但PiCO的两个关键组件以协作的方式工作。
-
- 由于对比术语在embedding space中有利地表现出聚类效应,标签消歧模块通过设置更精确的原型进一步利用了这一点。
-
- 一组经过精心修饰的标签消歧结果可能反过来也会影响正集结构,正集结构是对比学习阶段的关键部分。
当这两个部分的表现令人满意时,整个训练过程就会收敛。在第5节中,我们进一步严格地绘制了PiCO与经典EM风格聚类算法的相似之处。我们的实验,尤其是第4.3节中显示的消融研究,进一步证明了这两种成分之间协同作用的相互依赖性。我们完整算法的伪代码如附录C所示。