论文阅读《Deep Long-Tailed Learning: A Survey》综述(二)

4实证研究

本节对现有的长尾学习方法进行实证分析。首先,我们引入一个新的评估指标

4.1新颖的评估度量

长尾学习的关键目标是处理类不平衡以获得更好的模型性能。因此,常见的评估协议[13],[22]直接使用top-1测试精度(用At表示)来判断长尾方法的执行情况,以及哪种方法更好地处理类不平衡。然而,当处理类别不平衡时,这样的度量不能准确地反映不同方法之间的相对优势,因为除了类别不平衡之外,前1名的准确性还受到其他因素的影响。例如,像集成学习(或数据增强)这样的长尾方法也可以提高模型的性能,在平衡的训练集上进行训练。在这种情况下,很难判断性能的提高是来自类不平衡的缓解还是来自更好的网络架构(或更多的数据信息)。为了更好地评估该方法在处理类别不平衡方面的有效性,我们提出了一种新的度量标准,即相对准确度Ar,以减轻长尾学习中不必要因素的影响。为此,我们首先计算经验上参考精度Au = max(Av,Ab),它是在具有交叉熵的平衡训练集上训练的相应主干的标准精度Av和在具有相应长尾方法的平衡训练集上训练的模型的平衡精度Ab之间的最大值。这里,平衡训练集是长尾训练集的变体,具有相似的总数据数,但是每个类具有相同的数据数。从平衡的训练集获得的这个较高的参考精度用于减轻除类别不平衡之外的影响;那么相对精度定义为Ar = At/Au。在我们的实验中,所有的准确度、上参考准确度和相对准确度将用于评估。

4.2实验设置

我们接着介绍实验设置。

数据集。我们采用广泛使用的ImageNet-LT [15]作为实证研究的基准长尾数据集,考虑到ImageNet-LT具有1000个大规模类和256的大不平衡率。ImageNet-LT的相应平衡训练集变体基于[13]进行采样。ImageNet-LT的总样本数可在表1中找到。除了关于所有类的性能,我们还报告了ImageNet-LT中三个类子集的性能:头部(超过100个图像)、中部(20 \6504; 100个图像)和尾部(少于20个图像)。

基线。我们通过以下标准选择长尾学习方法:(1)官方源代码是公开可用的或易于重新实现的;(2)在ImageNetLT上对相应论文中的方法进行了评价。因此,本文对20多种方法进行了实证评估,包括基线(Softmax),成本敏感学习(加权Softmax,focal loss[68],LDAM [18],ESQL [19],平衡Softmax [86],LADE [31]),logit调整(UNO-IC [87]),迁移学习(SSP [89]),数据增强(RSG [99]),表示学习(OLTR [15],PaCo [109])。分类器设计(去混杂[88]),解耦训练(Decouple-IB-CRT [32],CB-CRT [32],SRCRT [32],PB-CRT [32],米氏[96]),集成学习(BBN [48],LFME [84],RIDE [17],ResLT [152],TADE [30])。这些方法的更多细节可以在第3节中找到。

实施细节。我们在PyTorch中实现所有实验。在[17]、[31]、[32]之后,我们使用ResNeXt-50作为所有方法的网络主干。我们根据批量大小256、动量0.9和重量衰减因子0.0005以及学习率0.1(线性LR衰减),使用SGD优化器进行模型训练。对于方法相关的超参数,如果默认值表现不佳,我们可以直接按照原始文件或手动调整来设置值。此外,我们对所有方法使用相同的基本数据增强(即,随机调整大小和裁剪为224、随机水平翻转、颜色抖动和归一化),而在基于增强的长尾方法中提出的其他增强技术将在这些基本增强操作之上使用。

4.3所有类别的结果

表5和图4报告了所有类别的平均性能。从这些结果中,我们对整个方法进展和不同的方法类型有了一些观察。
对所有方法的观察。如表5所示,几乎所有长尾方法在准确性方面都优于Softmax基线,这证明了长尾学习的有效性。即便如此,有两种方法的性能比Softmax稍差,即Decouple-CB-CRT [32]和BBN [48]。我们推测,Decouple-CBCRT的不良性能是由于在解耦训练的第一阶段通过类平衡采样进行的不良表示学习造成的(更多经验观察见[32])。BBN的成绩差(基于官方代码)可能来自于累积学习策略,将学习重点从头课逐渐调整到尾课;然而,在训练的最后,它可能会把太多的注意力放在尾巴上。因此,尽管尾部类的性能更好,但头部类的模型精度显著下降(参见表6),导致平均性能更差。

除了准确度,我们还基于上参考准确度(UA)和相对准确度(RA)来评估长尾方法。表5显示,大多数方法具有与基线模型相同的普遍获得系数,但仍有一些方法具有更高的普遍获得系数,如SSP、MiSLAS、TADE。对于这些方法,性能的提高不仅来自于类不平衡的缓解,还来自于其他因素,如数据增加或更好的网络体系结构。因此,简单地使用准确性进行评估是不够准确的,而我们提出的RA度量提供了一个很好的补充,因为它减轻了除类别不平衡之外的因素的影响。例如,基于数据混合的MiSLAS在90个训练历元下具有比平衡Softmax更高的准确性,但它也具有更高的UA。因此,MiSLAS的相对精度低于平衡的Softmax,这意味着在90个训练时期下,平衡的Softmax比MiSLAS更好地缓解了类别不平衡。当训练历元增加到200时,MiSLAS比平衡的Softmax具有更高的RA。也就是说,尽管有其他因素提高性能,但经过充分训练的MiSLAS也比平衡的Softmax显示出更好的处理班级不平衡的能力。在200个训练时期下的更多例子可以在图4 (a,c)中找到。

虽然最近的一些高精度方法的RA较低,但长尾学习的整体发展趋势仍然是积极的,如图4所示。这样的表现趋势表明,最近对长尾学习的研究取得了真正的进展。此外,最先进的TADE的RA为93.0,这意味着未来仍有改进的空间。

此外,我们还在表5中评估了不同训练时期(即90和200)对模型训练的影响。总体而言,用200个历元进行训练会使大多数长尾方法的性能更好,因为足够的训练使深度模型能够更好地拟合数据,并学习更好的视觉表示。然而,也有一些方法在仅训练90个历元时表现更好,例如去混杂和解耦-CB-CRT。我们推测,对于这些方法,90个时期足以很好地训练模型,而训练更多的时期不会带来额外的好处,而是增加了训练难度,因为它还影响学习率衰减方案

对不同方法类型的观察。我们还从不同方法类型的角度讨论了表5中的结果。首先,与基线模型相比,几乎所有的类再平衡(CB)方法都有利于长尾学习性能。具体来说,LADE、Balanced Softmax和LDAM在这种方法类型中达到了最先进的水平。此外,提出焦点损失来处理不平衡的对象检测[68];然而,当处理极其大量的长尾类(例如,ImageNet-LT中的1000个)时,焦点损失不能很好地执行,并且仅导致边际改善。在LDAM,除了对成本敏感的LDAM损失之外,还有一个延期的再平衡优化时间表;注意,简单地学习LDAM损失而没有延迟方案可能不会实现有希望的性能。此外,如表5所示,大多数成本敏感学习方法的上限参考精度是相同的,因此相对精度与精度正相关(参见图4 (b))。因此,这种方法类型的准确性提高可以准确地反映类不平衡的缓解。在信息扩充(IA)的方法类型中,迁移学习(SSP)和数据扩充(RSG)都有助于处理长尾类不平衡。虽然SSP也提高了上限参考精度,但相对精度的提高更为显著,这意味着性能提升主要来自于对类不平衡的处理。考虑到缺乏足够的尾类样本是关键挑战之一,IA值得通过将更多信息引入训练来进一步探索。在模块改进(MI)中,方法的所有子类都有助于处理类不平衡。到目前为止,就准确性和相对准确性而言,现有技术是基于系综的长尾方法,即TADE [30]和莱德[17]。尽管集成学习也提高了上限参考精度,但是来自处理不平衡的性能增益更显著,即更高的相对精度(参见图4 (d))。

你可能感兴趣的:(数据不均衡&长尾学习,深度学习,计算机视觉)