论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification

Abstract:无监督自适应(UDA)行人重识别(ReiD)的目的是将在有标记的源域数据集上训练的模型适应于目标域数据集,而无需任何其他标记。最成功的UDA-ReID方法是将基于聚类的伪标签预测与表示学习相结合,并以交替的方式执行这两个步骤。但是,这两个步骤之间的离线交互可能会导致有噪声伪标签严重阻碍模型的性能。在本文中,提出了一种组感知的标签转移(GLT)算法,该算法使伪标签预测和表示学习的在线交互和相互促进。具体而言,标签转移算法在使用伪标签来训练数据的同时将伪标签细化为在线聚类算法。它将在线标签提炼问题视为最佳传输问题,它探索了将M个样本分配给N个伪标签的最低成本。更重要的是,我们引入了一种组感知策略,将隐式属性组id分配给样本。将在线标签精炼算法与群体感知策略相结合,可以更好地在线纠正带有噪声的伪标签,缩小目标身份的搜索空间。根据Market1501→DukeMTMC (82.0%) 和DukeMTMC→Market1501(92.2%)的实验结果,证明了GLT的有效性,并且显着缩小了行人重识别时无监督表现与有监督表现之间的差距。
1、Introduction
行人重识别(Reid)是对非重叠摄像机网络中获取的人员图像的匹配的重要任务,在自动监控等方面有着很广泛的应用。现有的方法在相同的应用场景中收集训练和测试数据时,能够得到很好的效果,但是在一些有差异的域之间,往往不能得到很好的推广。因此这个无监督自适应的行人重识别(UDA-Reid)问题是一个很重要的研究方向。
现有的UDA-ReID方法通常包括三个步骤:

  • 基于标记源域数据的特征预训练
  • 基于聚类的目标域数据伪标记预测、
  • 基于伪标记的特征表示学习

存在的问题及解决方案:

  • 第一个问题,由于源数据与目标数据之间的域差距,以及聚类算法的不完善,以至于通过聚类分配的伪标签通常包含不正确的标签。这种标签会误导特征学习,影响域自适应性能。因此,在训练时对错误样本进行在线精炼(online refining ),可以帮助模型学更鲁棒和准确的表示。
  • 第二个问题是目标域缺少身份信息,很难根据身份对人物图像进行聚类。将在线标签细化算法与组感知策略相结合可能有益于域自适应的成功。如下图所示:
    论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第1张图片

本文主要的贡献为:

  • 首次尝试通过UDA-ReID的标签转移方法将聚类和特征学习集成到一个统一的框架中。它可以在线精炼预测的伪标签,提高模型在目标域上的特征表示能力。
  • 提出了一种基于标签迁移的群感知特征学习策略,以改进多组伪标签优化,为提高表示学习质量提供了良好的潜在伪标签组。
  • 与最先进的方法相比,GLT框架实现了显著的性能改进。即使对于监督学习方法,此算法也显著的缩小了差距。

2、Related Work

  • Clustering-based Methods:根据聚类结果生成硬伪标签和软伪标签,然后根据伪标签对模型进行微调。这种方法被广泛使用。
    • 无监督聚类产生的伪标签噪声一直是自训练的一个障碍,这种噪声标签会误导特征学习,阻碍高性能的实现。
    • 最近,一些方法引入了两个/三个协作网络之间的相互学习,以相互利用对等网络的精细软伪标签作为监控。
  • Domain translation based methods:通过源图像对目标图像进行转换,然后,他们使用这些转换源到目标图像及其相应的地面真值身份来微调目标域模型。
    • 这种方法不使用于现实场景,因为基于Gan的方法很少用于训练,而且会引入额外的计算成本。
  • Memory Bank based methods:被广泛的应用于无监督表征学习,这有助于在一般任务中引入对比损失。
    • 我们将对比损失引入到目标实例内存库中,以使查询样本对内存库中所有样本的正对和负对进行联合优化,这作为我们的强基线。

3、Group-aware Label Transfer
首先介绍了系统的总体架构,然后给出了我们的群感知标签传输框架,最后介绍了加权对比损耗的存储库。

  • 3.1、Clustering-based Method Revisit

    • Formulation:UDA-ReID的目的就是将在一个带注释的源域数据集上训练的模型适应到另一个未标记的目标域数据集上。将源数据用手动标记,目标域图像没有真实标签。
    • Overview:由于Deep-cluster框架的简洁性和有效性使这个框架成为通用的传输途径。
      • 具体就是ReID模型F(·|θ)在源域数据上进行有监督的预训练,然后采用训练好的网络提取目标图像的特征,之后对这些图像进行聚类,将目标图像分为K类。计算交叉熵损失,将嵌入特征转化为分数向量,然后根据交叉熵损失Lid(θ)和三重损耗对网络参数θ和可学习的目标域分类器F Ck进行优化,公式如下:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第2张图片
      • 通过聚类生成伪标签和使用伪标签进行特征学习这两个步骤不断的交替,直到训练收敛。由于域的差异性,导致伪标签不一定可靠,并且还存在噪声标签。这将使特征学习倾向于学习噪声的信息。
      • 因此我们采用online clustering strategy来细化伪标签错误的样本。 group-aware label transfer和 ReID model交替进行,在伪标签的引导下,逐步在目标域上训练得到ReID模型。运行的结构如下:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第3张图片
  • 3.2、Online Clustering by Group-aware Label
    每个图像xi通过ReiD模型转换成fi,然后通过fi映射到一组k个可训练的原型向量,并且计算出组概率pi。然后伪标签采用Q ∈ [0, 1]K×N监督组概率p,并且在训练过程中采用Label Transfer 在线更新伪标签。

    • Prototype Prediction Problem

      • 我们的原型可以由非参数原型分类器或参数线性分类器实现。该优化可以通过交叉熵损失来优化聚类分配概率。

      • 对于原型预测问题,本文将标签编码为后验分布q (˜yi|xi) ∈ Q,将交叉熵损失改为:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第4张图片

      • 这个损失函数是相对于原型C和图像编码器参数θ的共同最小化。

    • Online Refining Pseudo Labels via Label Transfer

      • 针对在基于聚类的UDA方法中,在聚类过程中产生噪声标签,给网络带来负面影响的问题,本文提出了一种结合表示学习和聚类算法的标签转移方法来校正在线训练方案中的伪标签。

      • 由于抑制了管道交替与表征学习的交互作用,单独的优化不能很好地生成表征学习中的准确度伪标签,因此我们尝试利用原型和群概率来去除噪声伪标签。我们使用原型来计算精炼伪标签,这样所有样本都被原型平均分割。这个方法确保了不同图像的伪标签是不同的。分配方法的公式如下:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第5张图片

      • 由于上式中的目标在q中是组合的,很难通过端到端的方式进行优化。然而optimal transport algorithm算法可以解决这个问题,我们也通过下式将矩阵Q放松为可移动原型的一个元素:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第6张图片

      • 由于在实践中计算的复杂性很大,传统算法很难解决,因此我们采用Sinkhorn-Knopp算法来解决这个问题,这相当于引入一个正则化项:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第7张图片
        由于当用一个小的λ会有一个强的熵正则化,会导致一个平凡解(无意义的解),所有的样本都有一个唯一的表示,并均匀的分配给所有的原型。因此我们要使用一个大的λ。根据Sinkhorn-Knopp算法,上式的正则化项的最小值可以表示为:
        在这里插入图片描述

      • α 和 β是标度系数的两个归一化向量,通过迭代Sinkhorn-Knopp算法,向量α和β可以通过简单的矩阵缩放迭代得到:
        在这里插入图片描述
        当λ很大时,此算法的优化与(6)式算法基本相同。但是,即使对于lambda的中间值,结果仍然趋向于接近最优解。(没看懂这里的lambda是什么)

      • 在这个的实验中,只是把λ作为一个超参数,因为这个实验并不是解决最优的传输问题,更关心的是在最终的聚类和表示学习结果中获得更好的性能。

      • 利用组概率矩阵P对伪标签矩阵Q进行更新后,然后使用当前Q作为伪标签来训练ReID模型来优化组概率P。伪标签预测和带有伪标签的特征学习这两个步骤交替进行,直到训练收敛。

    • Group-aware Label Transfer

      • 目标域的实际标识号k是未知的,很难用k的一个值生成准确的伪标签。因此在group-based description中包含pseudo groups的公共特性,有助于缩小候选集合,从而有助于确定确切的人。

      • group-aware策略可以将一个人聚类到多组聚类原型中,能够高效地嵌入大量的人,并对一个未知的人进行简要描述。我们引入group-aware策略,为样本分配隐式属性组id。

      • 我们首先使用多k设置,通过DBSCAN 或 multi-k K-means生成多组伪标签。然后使用这些来训练 ReID模型:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第8张图片

      • 对于多组伪标签,采用多组优化策略对多组伪标签进行优化。在下式中对多组目标函数进行优化:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第9张图片

  • 3.3、Target Instance Memory Bank
    首先描述我们的目标实例存储库(target instance memory bank)模块,它带有一个更新机制。然后,我们证明了以信息对为重点的加权方案对多个正样本的对比损失是有益的。

    • Updating mechanism

      • 使用存储库(memory bank)来记忆整个数据集的特征。当使用mini-batch时,我们将存储库保持为一个数据样本队列。允许重用前面的 minibatches中的特性嵌入。通过引入队列将memory bank size 与 the mini-batch size分离。
      • 我们的memory bank size可以远远大于典型的mini-batch size,并且可以灵活地独立设置为一个超参数。当前的mini-batch将排入字典队列,并删除队列中最早的mini-batch。这样字典中的样本将逐步替换。字典始终表示所有的采样子集,而维护此字典的额外计算是易管理的。删除最旧的mini-batch是有益的,因为它的编码密钥是最过时的,也最不符合最新的结果。
    • Weighted contrastive loss

      • 使用余弦距离去计算mini-batch和memory bank之间的特征相似度。另外根据伪标签将样本分成L对负样本和K对正样本,加权对比损失适合此类问题。
      • 提出加权对比损失,可以更好的计算多个正样本下的损失,有利于模型的优化:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第10张图片
      • 将上面的损失综合起来,总的损失可以表述为:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第11张图片

4、Experimen

  • 4.1、Datase
    我们主要在三人ReID数据集之间评估我们的框架,使用了下面的三个数据集:

    • DukeMTMC-reID:有36411张图像,所有图像都是从8个摄像机中捕获的,有702个标识用于训练,702个用于测试。
    • Market-1501:由6个摄像头捕获,751个身份的12936张图像用于训练,750个身份的19281张图像用于测试。
    • MSMT:由15个摄像机捕获,包含126441张图像,共4101个身份,其中1041个身份用于训练

    采用mAP和CMC前1/5/10的准确度进行评价。

  • 4.2、Implementation Details

    • Training data organization:对于我们的联合训练策略,每个mini-batch包含4个真实身份的64个源域图像(每个身份16个)和4个伪身份的64个目标域图像。伪身份由聚类算法分配,并在每个时期之前更新。所有图像的大小调整为256×128,并对每个图像进行随机扰动(对数据进行扩容)。
    • Hyper-parameters:调整了Market→Duke框架的超参数,并将选择的超参数运用于其他任务。
      • 采用ADAM优化器对权重因子λtri = 1, λg = 1, λmcl = 0.05和三元边界m = 0.3的网络进行优化。初始学习率设置为0.00035。源域预训练迭代30个次,每10次学习率下降到其先前的1/10。我们使用K-means或DBSCAN来初始化伪标签,并利用组感知标签传输来改进每次训练的伪标签。
      • 设k ={500, 1000, 1500, 2000}用于K-means设置中的所有数据集,设eps = {0.56, 0.58, 0.60, 0.62,0.64}用于DBSCAN设置中的所有数据集。
  • 4.3、Comparison with the State-of-the-art Methods

    • 我们将我们提出的GLT和下表中四种域自适应设置的最新方法进行了比较:
      论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第12张图片

    • 我们的方法在这四个任务上的mAP改善幅度分别超过了clusteringbased SSG的21.2%、15.8%、13.3%和14.4%,并且网络架构更简单,无需额外计算局部特征。

    • 我们的在没有注意机制的帮助下,还能够比DAAM在这四项任务的mAP上分别有30.7%、15.1%、5.7%和6.1%的显著改善。

    • 我们的GLT采用了一种模型,大大超过了使用相同主干的两种模型方法MMT,在mAP方面表现出8.3%、4.1%、3.6%和4.4%的显著改进。

    • 对于Duke→Market和 Market→Duke,在mAP精度方面,GLT方法明显优于UDA方法。

    • 在没有任何手动注释的情况下,我们的无监督域自适应方法显著地弥合了无监督和有监督的人员重识别性能之间的差距。

  • 4.4、Ablation Studies
    在Duke→Market 和 Market→Duke上通过ablation studies(用于检测深度学习模型中各部分构件对于整体的重要性。即通过控制变量的实验,分别验证几个思路的有效性)来评估所提出的每个组件。实验结果为下图:
    论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第13张图片

    • Effectiveness of proposed components
      • 在引入 label transfer算法后,在Duke→Market任务上rank-1精度提高了7.8%,mAP提高了6.9%。
      • 通过采取memory bank with weighted contrastive loss,使模型的rank-1精度从88.1%增加到89.0%,mAP从66.4%增加到68.2%。
      • 通过采用group-aware label transfer,使模型的rank-1精度提高了11.3%,mAp提高了3.0%。
      • 实验结果证明了group-aware label transfer在改善噪声伪标签中的必要性和有效性。
    • Effectiveness of loss functions
      • 在Market→Duke和Duke→Market任务上Triplet loss在mAP上分别有3.2%和2.1%的改善,weighted contrastive loss在mAP上分别有2.6%和2.8%的改善。
      • memory bank中的Weighted contrastive loss在整个数据集样本中挖掘全局的正实例和负实例,两者损失可以相互帮助。
      • triplet loss和Weighted contrastive loss的有效性实验如下:
        论文笔记---Group-aware Label Transfer for Domain Adaptive Person Re-identification_第14张图片

5、Conclusion

  • 提出了一种新的框架GLT,即在一个优化目标上将准确的伪标签预测和有效的ReiD表示学习相结合。
  • 在训练过程中,伪标签预测和表示学习之间的整体和直接的互动可以极大地帮助UDA的行人重识别。
  • 也将在线标签优化问题视为最优传输问题,研究了将M个样本分配给N个标签的最小代价。
  • 引入一种group-aware策略,将隐式属性组id分配给样本。
  • 将 online label refining算法与group-aware策略相结合,能够更好的改善带有噪声的伪标签,缩小目标身份的搜素空间。
  • 在行人重识别方面,本文的方法不仅实现了最好的性能,还显著缩小了监督和非监督性能之间的差距。

你可能感兴趣的:(笔记,深度学习,神经网络,pytorch,目标检测)