《Deep Long-Tailed Learning: A Survey》
深度长尾学习: 调查
Yifan Zhang、Bingyi Kang、Bryan Hooi、Shuicheng Yan(IEEE Fellow)和 Jiashi Feng
来自新加坡国立大学计算机学院、字节跳动 AI Lab 和 SEA AI Lab
长尾类别不平衡(long-tailed class imbalance):
本文工作:
考虑到这一领域的快速发展,本文旨在全面考察深度长尾学习的最新进展。
具体来说,我们将现有的深度长尾学习研究分为三大类,并按照这一分类法详细回顾了这些方法。
随后,我们对几种最先进的方法进行了实证分析,通过新提出的评价指标(即相对准确度)评估了这些方法在多大程度上解决了类不平衡问题。
最后,我们强调了深度长尾学习的重要应用,并为未来研究指明了几个有前途的方向。
深度学习:
深度学习允许由多个处理层组成的计算模型学习多层次抽象的数据表示,并在计算机视觉领域取得了令人难以置信的进展。深度学习的关键推动因素是大规模数据集的可用性、GPU 的出现以及深度网络架构的进步。凭借学习高质量数据表征的强大能力,深度神经网络已成功应用于许多视觉判别任务,包括图像分类、物体检测和语义分割。
长尾类分布(long-tailed class distribution):
在现实世界的应用中,训练样本通常呈现长尾类分布,即一小部分类拥有大量样本点,但其他类只与少数几个样本相关。
然而,这种训练样本数量的类不平衡使得基于深度网络的识别模型的训练非常具有挑战性。如图 1 所示,训练好的模型很容易偏向于拥有大量训练数据的头部类别,导致模型在数据有限的尾部类别上表现不佳 。
因此,通过经验风险最小化的常见做法训练的深度模型无法处理具有长尾类不平衡的实际应用,例如人脸识别、物种分类、医学图像诊断、城市场景理解和无人机检测。
调查时限:
为解决长尾类不平衡问题,近年来开展了大量深度长尾学习研究。尽管这一领域发展迅速,但仍然没有系统的研究来回顾和讨论现有的进展。为了填补这一空白,我们旨在对 2021 年中之前开展的长尾学习研究进行全面调查。
技术分类:
如图 2 所示,我们根据现有方法的主要技术贡献将其分为三大类,这些类别又可进一步分为九个子类:
根据这一分类法,我们对现有方法进行了全面评述,并对几种最先进的方法进行了实证分析,使用新的评价指标(即相对准确度)评估了这些方法处理类不平衡的能力。最后,我们介绍了深度长尾学习在现实世界中的几种应用场景,并指出了几种有前途的研究方向,供业界在未来进行探索。
本文贡献:
我们将本研究的主要贡献总结如下。
本调查报告的其余部分安排如下: 第 2 节介绍了问题的定义,并介绍了广泛使用的数据集、度量标准和应用。第 3 节全面回顾了先进的长尾学习方法,第 4 节基于新的评估指标对几种最先进的方法进行了实证分析。第 5 节指出了未来的研究方向。我们在第 6 节中结束本调查。
问题概述
问题定义
深度长尾学习:
深度长尾学习旨在从具有长尾类分布的训练数据集中学习深度神经网络模型,其中一小部分类具有大量样本,其余类仅与少数样本相关(参见图 1)。
公式化描述:
挑战:
这项任务的挑战性在于两个方面:
数据集
近年来,用于长尾学习的视觉数据集层出不穷,它们在任务、类数和样本数上各不相同。在表 1 中,我们总结了深度长尾学习领域广泛使用的九个可视化数据集。
长尾数据集统计。;"Det. "表示物体检测;"Seg. "表示实例分割。
表中的“Cls. ”表示图像分类
"Det. "表示物体检测;"Seg. "表示实例分割。在长尾对象检测和实例分割方面,LVIS 提供精确的边界框和掩码注释,是广泛使用的基准。
评估指标
长尾学习试图在具有长尾类不平衡的数据上训练一个性能良好的模型。为了评估类不平衡的解决程度,通常会报告模型在所有类上的性能以及在类子集(即头部、中部和尾部类)上的性能。
原则:
评价指标应平等对待每个类。
测试集平衡时:
测试集不平衡时:
应用
深度长尾学习的主要应用包括图像分类、检测分割和视觉关系学习。
图像分类(Image Classification)
图像检测/分割(Image Detection / Segmentation)
视觉关系学习(Visual Relation Learning)
与相关任务的关系
我们简要讨论了几个相关任务,包括非深度长尾学习、类不平衡学习、少样本学习和域外泛化。
非深度长尾学习(Non-deep long-tailed learning)
针对长尾问题有很多非深度学习方法。它们通常利用先验知识来增强处理长尾问题的经典机器学习算法。例如,
利用类别间相似性的先验知识来正则化用于长尾对象识别的内核机器算法。
Pitman-Yor Processes(PYP)方法产生的长尾幂律分布先验被用于增强贝叶斯非参数框架的长尾主动学习。
采用人工分布先验构建尾类数据增强,以增强 KNN 和 SVM 的长尾场景解析能力。
几乎所有这些方法都是基于尺度不变特征变换(SIFT)、梯度方位直方图(HOG)或 RGB 颜色直方图来提取图像特征的。然而,这些表示方法无法为实际的视觉应用提取信息量大、区分度高的特征,因此在长尾学习中的表现有限。
最近,鉴于深度网络在图像表示方面的强大能力,深度长尾方法在长尾学习方面取得了显著的性能提升。更令人鼓舞的是,深度网络的使用还为长尾学习激发了大量新的求解范式,如迁移学习、解耦训练和集成学习等,这些将在下一节中介绍。
类不平衡学习(Class-imbalanced learning)
少样本学习(Few-shot learning)
少量学习的目的是通过每类有限数量的标注样本(如 1 或 5 个)来训练模型。在这方面,少样本学习可被视为长尾学习的一个子任务,在长尾学习中,尾类通常只有极少量的样本。
域外泛化(Out-of-domain Generalization)
域外泛化指的是一类任务,其中训练分布与未知测试分布不一致。这种不一致包括数据边际分布不一致(如领域适应和领域泛化)、类分布不一致(如长尾学习、开放集学习)以及前两种情况的结合。从这个角度看,长尾学习可视为域外泛化中的一项特定任务。
经典方法
如图 2 所示,我们根据现有深度长尾学习方法的主要技术特点,将其分为三大类,包括类再平衡、信息增强和模块改进。具体来说,类别再平衡包括三个子类别:重新采样、类别敏感学习(CSL)和对数调整(LA)。信息增强包括迁移学习(TL)和数据增强(Aug)。模块改进包括表征学习(RL)、分类器设计(CD)、解耦训练(DT)和集成学习(Ensemble)。根据这一分类法,我们在表 2 中对现有方法进行了分类,并对其进行了如下详细评述。
类再平衡
类再平衡是长尾学习的主流范式,旨在重新平衡训练样本数量中类不平衡带来的负面影响。这类方法主要有三个子类别:重新采样(re-sampling)、类敏感学习(class-sensitive learning)和 logit 调整(logit adjustment)。我们首先介绍基于重新取样的方法,然后是对类敏感的学习和 logit 调整。
图片注解:2021 年中之前在顶级会议上发表的现有深度长尾学习方法汇总。主要分为三类:类再平衡、信息增强和模块改进。表中,"CSL "表示类敏感学习;"LA "表示对数调整;"TL "表示迁移学习;"Aug "表示数据增强;"RL "表示表示学习;"CD "表示分类器设计,旨在为长尾识别设计新的分类器或预测方案;"DT "表示解耦训练,即特征提取器和分类器分开训练;"Ensemble "表示基于集成学习的方法。此外,"目标方面(Target Aspect) "表示一种方法试图从哪个方面解决类不平衡问题。
重采样
小批量随机梯度下降(mini-batch gradient descent with random sampling)的弊端:
传统的经典方法:
抽样策略介绍与测评:
我们从解耦(Decoupling)开始,其中评估了用于长尾数据表示学习的四种抽样策略,包括随机抽样(random sampling)、类均衡抽样(class-balanced sampling)、平方根抽样(squareroot sampling)和渐进均衡抽样(progressively-balanced sampling)。具体来说,
根据经验结果,Decoupling 发现平方根采样和渐进平衡采样是长尾识别中标准模型训练的较好策略。不过,这两种策略都需要事先知道不同类别的训练样本频率,而这在实际应用中可能无法获得。
自适应抽样策略:
针对上述问题,最近的研究提出了各种自适应抽样策略。
使用元学习方法:
除了使用模型训练过程中计算出的统计数据,一些重新抽样方法还采用了元学习方法。
多层次重新采样:
讨论:
类敏感学习
softmax 交叉熵损失的弊端:
传统的深度网络训练基于 softmax 交叉熵损失(参见表 3)。
这种损失忽略了数据大小中的类不平衡,往往会对不同的类产生不均衡的梯度。也就是说,在交叉熵中,一个类的每个正样本都可以被视为其他类的负样本,这导致头部类获得更多的支持梯度(因为它们通常是正样本),而导致尾部类获得更多的抑制梯度(因为它们通常是负样本)。
为了解决这个问题,类敏感学习试图特别调整不同类的训练损失值,以重新平衡不平衡问题造成的不均衡训练效果。对类敏感的策略主要有两种,即重新加权(re-weighting)和重新边缘化(re-margining)。我们从类别再加权开始,具体如下。
重新加权(Re-weighting)
为了解决类别不平衡的问题,重新加权法试图通过乘以不同的权重来调整不同类别的训练损失值。
最直观的方法是直接使用训练样本的标签频率进行损失再加权,以重新平衡不同类别间不均衡的正梯度。例如,加权 softmax(参见表 3)直接将不同类别的损失值乘以训练标签频率的倒数。
然而,简单地乘以其倒数可能并不是最佳解决方案。因此,最近的研究提出了根据样本感知的影响来调整训练标签频率的影响。
此外,Class-balanced loss(CB)引入了一个新概念——有效数,用来近似不同类别的预期样本数,而有效数是其训练标签数的指数函数。在此基础上,CB loss 强化了与有效类数成反比的类平衡再加权项,以解决类不平衡问题(参见表 3)。
除了上述在对数概率层面的重新加权外,我们还可以使用训练标签频率对预测对数进行重新加权。Balanced Softmax 提出通过乘以标签频率来调整预测对数,这样就可以在计算最终损失之前通过标签先验来减轻类不平衡带来的偏差。
随后,Vectorscaling loss(VS)直观地分析了加法和乘法对数调整损失的不同效果,从而提出了一种新的 VS 损失,将两种调整形式的优点结合起来。
Focal loss 没有使用训练标签频率,而是探索了重新加权的类预测硬度(class prediction hardness)。这是因为观察到类的不平衡通常会增加尾类的预测难度,而尾类的预测概率会低于头类的预测概率。据此,Focal loss 利用预测概率对类别进行反向再加权(参见表 3),这样就能为较难预测的尾部类别分配较高权重,而为较容易预测的头部类别分配较低权重。
除了使用预定义的加权函数,类权重也可以从数据中学习。例如,Meta-Weight-Net 提出根据平衡验证集学习 MLP 近似加权函数,以实现对类别敏感的学习。
最近的一些研究也试图解决尾类的负梯度过度抑制问题。例如,
当尾部样本作为头部样本的负标签时,Equalization loss 会直接降低尾部样本损失值的权重。然而,简单地降低负梯度权重可能会损害深度模型的判别能力。
为了解决这个问题,自适应类抑制损失(Adaptive Class Suppression loss,ACSL)使用输出置信度来决定是否抑制负标签的梯度。具体来说,如果负面标签的预测概率大于预定义的阈值,就意味着模型对该类产生了混淆,因此该类的权重被设为 1,以提高模型的辨别能力;反之,权重被设为 0,以避免负面过度抑制。
此外,Equalization loss v2 扩展了 Equalization loss,引入了新颖的梯度引导再加权机制,针对不同类别动态地提高正梯度权重,降低负梯度权重。
同样,Seesaw loss 通过两个再加权因子(即减轻和补偿)对每个类别的正负梯度进行再平衡。具体来说,为了解决梯度过度抑制问题,缓解因子会根据不同类别的动态累积采样数,减轻对尾部类别的惩罚。同时,如果观察到假阳性样本,补偿因子会增加相应类别的惩罚权重,以提高模型的判别能力。
再边际化(Re-margining)
为了处理类不平衡问题,再边际化试图通过为不同类减去不同的边距系数来调整损失,这样它们在特征和分类器之间就有了不同的最小边距(即距离)。直接使用现有的软边距损失是不可行的,因为它们忽略了类不平衡的问题。
为了解决这个问题,标签分布感知边距(Label-Distribution-Aware Margin,LDAM)根据不同类别的训练标签频率,为不同类别强制执行与类别相关的边距系数,从而鼓励尾类具有更大的边距。
然而,在实际应用中,训练标签频率可能是未知的,简单地使用标签频率进行再边际化也会忽略模型在不同类别上的训练状况。
为了解决这个问题,最近的研究探索了各种自适应再边缘化方法。
讨论:
Logit Adjustment 调整
总结
信息增强
信息增强旨在为模型训练引入额外信息,从而提高长尾学习的模型性能。这种方法有两种:迁移学习和数据增强。
迁移学习
迁移学习(Transfer learning)旨在迁移源领域(如数据集)的知识,以加强目标领域的模型训练。在长尾学习中,主要有四种转移方案,即模型预训练(model pre-training)、知识蒸馏(knowledge distillation)、头对尾模型转移(head-to-tail model transfer)和自我训练(self-training)。
模型预训练(model pre-training)
模型预训练是深度模型训练的一种流行方案,在长尾学习中也有探索。例如,
知识蒸馏(knowledge distillation)
知识蒸馏旨在根据训练有素的教师模型的输出结果来训练学生模型。最近的研究探索了长尾学习的知识提炼。例如,
头尾模型转移(head-to-tail model transfer)
头尾模型转移(Head-to-tail model transfer)旨在将模型知识从头部类别(head classes)转移到尾部类别(tail classes),以提高模型在尾部类别上的性能。例如,
自训练(self-training)
讨论
数据增强
数据增强(Data Augmentation)旨在通过对每个数据/特征进行预先定义的转换来增强数据集的大小和质量。在长尾学习中,已经探索了两种类型的增强方法,即基于转移的增强(transfer-based augmentation)和基于非转移的增强(non-transfer augmentation)。
**头尾转移增强(Head-to-tail transfer augmentation)**旨在将头部类别的知识转移到尾部类别样本中以增强它们。例如,
**基于非转移的增强(Non-transfer augmentation)**旨在改进或设计传统的数据增强方法来解决长尾问题。
SMOTE 是一种经典的非深度类别不平衡的过采样方法,可以应用于深度长尾问题,通过混合几个类内相邻样本来生成尾部类别样本。
数据混合(mixup)
使用先验特征:
讨论
模块改进
除了类别再平衡和信息增强之外,研究人员还探索了在长尾学习中改进网络模块的方法。这些方法可以分为四类:
表示学习
现有的长尾学习方法基于三个主要范式来改进表示学习,即度量学习(metric learning)、原型学习(prototype learning)和顺序训练(sequential training)。
度量学习(metric learning)旨在设计特定任务的距离度量,以确定数据之间的相似性或不相似性。在深度长尾学习中,基于度量学习的方法是寻求探索各种基于距离的损失函数,以学习一个对长尾数据具有区分性的特征空间。
一个例子是大边距局部嵌入(Large Margin Local Embedding,LMLE),
与采样三元组或五元组不同,**范围损失(range loss)**通过使用一个 mini-batch 内所有样本对之间的整体距离来创新表示学习。
最近的研究也探索了**对比学习(contrastive learning)**在长尾问题中的应用。
基于原型学习(prototype learning)的方法旨在学习类别特定的特征原型,以增强长尾学习的性能。
基于顺序训练(sequential training)的方法以连续的方式学习数据表示。例如,
讨论:
分类器设计
除了表示学习,研究人员还探索了不同类型的分类器来解决长尾问题。
通用视觉问题:
归一化特征与最近类均值分类器:
为了解决这个问题,最近的一些研究提出了使用尺度不变余弦分类器(scale-invariant cosine classifier) p = ϕ ( ( w T f ∥ w ∥ ∥ f ∥ ) / τ + b ) p=\phi((\frac{w^Tf}{\Vert w\Vert\Vert f\Vert})/\tau+b) p=ϕ((∥w∥∥f∥wTf)/τ+b),其中分类器权重和样本特征都被归一化。在这里,温度因子 τ \tau τ 应该合理选择,否则分类器性能会受到负面影响。
然而,归一化特征空间可能会损害其表示能力。
因此,** τ \tau τ-归一化分类器( τ \tau τ-normalized classifier)**通过仅通过 τ \tau τ-归一化过程调整分类器权重范数来纠正不平衡。形式上,让 w ~ = w ∥ w ∥ 2 τ \tilde{w}=\frac{w}{\Vert w\Vert_2^\tau} w~=∥w∥2τw,其中 τ \tau τ 是归一化的温度因子。
请注意,超参数 τ \tau τ 也可以通过类别平衡采样进行训练,得到的分类器被称为可学习权重缩放分类器。
另一种解决分类器权重不平衡的方法是使用最近类均值分类器,它首先计算训练集上每个类别的平均特征作为分类器,然后基于最近邻算法进行预测。
更复杂的分类器设计:
还有一些基于层次分类(hierarchical classification)、**因果推断(causal inference)或分类器知识转移(classifier knowledge transfer)**的更复杂的分类器设计。例如,
现实分类器(Realistic Taxonomic Classifier,RTC)
因果分类器(class taxonomic tree structure)
利用因果推断来保持长尾学习中的好动量(good)因果效应并去除坏动量(bad)因果效应。
为了更好地近似偏差信息,因果分类器采用多头策略,将模型权重的通道(或维度)和数据特征平均分成 K K K 组。
在推理过程中,因果分类器通过在输入为零时减去预测来去除坏的因果效应,
更直观地说,分类器通过在训练期间计算指数移动平均特征来记录偏差,然后在推理期间通过从预测 logits 中减去偏差来去除坏的因果效应。
GIST 分类器旨在将头部类别分类器的几何结构转移到尾部类别。
讨论:
解耦训练
解耦训练(Decoupled training)将学习过程分为表示学习和分类器训练。在这里,解耦训练代表了长尾学习的一种通用范式,而不是一种特定的方法。解耦是引入这种两阶段解耦训练方案的开创性工作。
遵循上述方案:
最近的一些研究特别增强了分类器训练阶段。例如,
讨论
解耦训练方法在特征和分类器层面都解决了类别不平衡问题。
在理想情况下,结合不同的方法可以带来更好的长尾性能,例如,
分类器学习阶段不会引入太多的计算成本,但却可以带来显著的性能提升。这使得解耦训练越来越受到关注。
集成学习
基于集成学习(Ensemble learning)的方法通过战略性地生成和组合多个网络模块(即多个专家)来解决长尾视觉学习问题。我们在图3中总结了现有基于集成的方法的主要方案,接下来将详细说明。
图片注解:现有基于集成的长尾方法的说明。与标准训练(a)相比,基于集成的方法训练的专家(b-f)可能具有不同的专长,例如,在不同的类别分布或不同的类别子集方面表现出技能(由不同颜色表示)。例如,BBN和 SimCAL 训练两个专家来模拟原始的长尾分布和均匀分布,以便它们能够很好地处理这两种分布。BAGS、LFME、ACE 和 ResLT 通过采样类别子集训练多个专家,以便不同的专家能够特别处理不同的类别集合。SADE 直接训练多个专家,分别模拟从静态长尾分布中产生的长尾、均匀和反向长尾类别分布,这使得它能够基于自监督聚合处理具有不可知类别分布的测试集。
双分支:
BBN 提出了使用两个网络分支,即常规学习分支和再平衡分支(参见表3(b)),来处理长尾识别。具体来说,
常规学习分支应用均匀采样来模拟原始的长尾训练分布,
而再平衡分支应用反向采样器在每个 mini-batch 中采样更多的尾部类别样本以提高尾部类别的性能。
两个分支的预测在训练过程中动态结合,使得 BBN 的学习重点逐渐从头部类别转移到尾部类别。
在 BBN 之后,LTML 应用双边分支网络方案来解决长尾多标签分类。具体来说,LTML 使用 sigmoid 交叉熵损失训练每个分支进行多标签分类,并强制执行 logit 一致性损失以提高两个分支的一致性。
同样,SimCal 探索了双分类头方案,包括常规分类头和校准分类头,来解决长尾实例分割。基于一种新的双级采样策略,校准分类头能够提高尾部类别的性能,而原始头则旨在维持头部类别的性能。
将类别分成平衡子组的多头方案:
将类别分成技能多样子集的多头方案:
不划分子集的多头方案:
对子集无限制的多头方案:
讨论:
实证研究
本节将对现有的长尾学习方法进行实证分析。首先,我们引入一个新的评估指标。
新颖的评估标准
常用的 top-1 测试准确率及其弊端:
相对准确率:
实验设置
数据集:
基线:
实现细节:
图片注解:在 ImageNet-LT 上 90 或 200 个训练轮次下的准确率 (Acc)、上限参考准确率 (UA) 和相对准确率 (RA) 结果。表中,CR、IA 和 MI 分别表示类别再平衡、信息增强和模块改进。
图片注解:长尾学习方法在 200 个轮次下的准确率和相对准确率的性能趋势。这里, ◯ \bigcirc ◯ 的形状表示 softmax 基线; □ \square □ 表示类再平衡; △ \triangle △ 和 ◊ \Diamond ◊ 分别表示信息增强和模块改进方法。不同的颜色代表不同的方法。
关于所有类别的观察:
表4和图4报告了 ImageNet-LT 在所有类别上的平均性能。从这些结果中,我们对整体方法进展和不同方法类型有几点观察。如表4所示,
除了准确性之外,我们还基于**上限参考准确率(UA)和相对准确率(RA)**评估长尾方法。表4显示,
尽管一些最近的高准确率方法具有较低的 RA,如图4所示,长尾学习的总体发展趋势仍然是积极的。这样的性能趋势表明,最近关于长尾学习的研究确实取得了实际进展。此外,最先进的 SADE 的 RA 为 93.0,这意味着未来仍有改进的空间。
我们还评估了不同训练周期(即 90 和 200)的影响,如表4所示。
对不同方法类型的观察:
接下来,我们在表4中分析了不同方法类型。
首先,几乎所有类别再平衡(CR)方法都对长尾学习性能有益,与基线模型相比。
在信息增强(IA)中,
在模块改进(MI)中,所有方法都有助于解决不平衡问题。
在不同类别子集上的结果:
图片注解:ImageNet-LT 在 90 或 200 个训练轮次下对头部、中部和尾部类别的准确度结果。表中,WS 表示加权软最大值,BS 表示平衡软最大值。方法类型与表 4 相同。
然后,我们报告了不同类别子集的性能。如表5所示,
**几乎所有方法都在牺牲头部类别性能的情况下提高了尾部类别和中部类别的性能。**然而,头部类别在长尾学习中也很重要,因此有必要在不牺牲头部类别性能的情况下提高长尾性能。
到目前为止,SADE 在准确性和RA(参见表4)方面取得了最佳的整体性能,但 SADE 在所有类别子集上并未达到最先进的性能(参见表5)。
图片注解:iNaturalist 2018 在 200 个训练轮次下的准确率结果。表中,CR、IA 和 MI 分别表示类别再平衡、信息增强和模块改进。
分析
接下来,我们将分析各类方法之间的关系。
关于类别再平衡的讨论:
类别再平衡有三种方法的子类型,即重新采样、类别敏感学习和logit调整。
尽管它们在重新平衡类别的目标上相同,但在某种程度上它们是相互排斥的。
因此,简单地结合现有的类别再平衡方法,如果没有仔细的设计,不能带来更好的性能。
关于预训练与其他长尾方法之间关系的讨论:
正如第3.2节提到的,模型预训练是长尾学习的一种基于转移的方案。在这个实验中,我们分析它是否对其他长尾范式有益。
如表8所示,SSP 预训练为类别再平衡(类别平衡采样和 BS)和模块改进(解耦和 SADE)带来了一致的性能提升。因此,我们得出结论,基于转移的方法与其他长尾范式是互补的。
关于数据增强与其他长尾方法之间关系的讨论:
我们接着分析数据增强方法是否对其他长尾范式有益。
如表9所示,RandAugment 为 BS(一种类别再平衡方法)、PaCo(表示学习)、De-confound(分类器设计)和 SADE(集成学习)带来了一致的性能提升。这样的结果表明,基于增强的方法对其他长尾学习范式是互补的。
关于解耦训练方案中类别敏感损失的讨论:
我们进一步评估了不同类别敏感学习损失在解耦训练方案中的性能。
如表10所示,解耦训练可以进一步提高大多数类别敏感方法的整体性能,除了 BS。在这些方法中,BS 在联合训练下表现最好,但其他方法在解耦训练下与 BS 表现相当。
实证观察总结
我们接下来总结了我们实证研究的主要信息。
在本节中,我们确定了深度长尾学习的几个未来研究方向。