论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)

  Deep Long-Tailed Learning: A Survey

深度长尾学习是视觉识别中最具挑战性的问题之一,旨在从大量遵循长尾类分布的图像中训练出表现良好的深度模型。在过去的十年中,深度学习已经成为学习高质量图像表征的强大识别模型,并在通用视觉识别方面取得了显著的突破。
然而,长尾类不平衡是实际视觉识别任务中的一个常见问题,它往往限制了基于深度网络的识别模型在实际应用中的实用性,因为它们很容易偏向优势类,而在尾部类上表现不佳。
为了解决这个问题,近年来进行了大量的研究,在深度长尾学习领域取得了可喜的进展。
考虑到这一领域的快速发展,本文旨在对深度长尾学习的最新进展做一个全面的调查。具体来说,我们将现有的深度长尾学习研究分为三大类(即 类的再平衡、信息增强和模块改进),并按照这一分类法对这些方法进行了详细的回顾。
之后,我们对几种最先进的方法进行了实证分析,通过新提出的评价指标,即相对准确度,评估它们在多大程度上解决了类不平衡的问题
在调查的最后,我们强调了深度长尾学习的重要应用,并确定了未来研究的几个有希望的方向。

1 INTRODUCTION

深度学习允许由多个处理层组成的计算模型学习具有多层次抽象的数据表示[1], [2],并在计算机视觉方面取得了令人难以置信的进展[3], [4], [5], [6], [7], [8]。深度学习的关键推动因素是大规模数据集的可用性,GPU的出现,以及深度网络架构的进步[9]。得益于学习高质量数据表征的强大能力,深度神经网络已被成功应用于许多视觉判别任务,包括图像分类[6]、[10]、物体检测[7]、[11]和语义分割[8]、[12]。

在现实世界的应用中,训练样本通常表现为长尾类分布,其中一小部分类有大量的样本点,但其他类只与少数样本相关[13], [14], [15], [16]。然而,这种训练样本数的类不平衡,使得基于深度网络的识别模型的训练非常具有挑战性。如图1所示,训练后的模型很容易偏向于有大量训练数据的头部类,导致在数据有限的尾部类上的模型表现不佳[17], [18], [19]。因此,通过经验风险最小化[20]的普遍做法训练的深度模型不能处理具有长尾类不平衡的现实世界应用,例如,人脸识别[21],[22],物种分类[23],[24],医学图像诊断[25],城市场景理解[26]和无人驾驶飞行器检测[27]。

论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)_第1张图片
图1. 长尾数据集的标签分布(如iNaturalist物种数据集[23],有8,000多个类)。在这些取样上学习到的头类特征空间往往比尾类大,而决策边界通常偏向于优势类。

为了解决长尾类的不平衡,近年来进行了大量的深度长尾学习研究[15], [16], [28], [29], [30]。尽管该领域发展迅速,但仍然没有系统的研究来回顾和讨论现有的进展。为了填补这一空白,我们旨在对2021年中期之前进行的近期长尾学习研究进行全面调查。

如图2所示,我们根据现有方法的主要技术贡献将其分为三大类,
类再平衡、信息增强和模块改进
这些类别可进一步分为九个子类别:
重新采样、
成本敏感学习、
对数调整、
迁移学习、
数据增强、
表示学习、
分类器设计、
解耦训练、
集合学习。
根据这个分类法,我们对现有的方法进行了全面的回顾,并通过使用一个新的评价指标,即相对准确度,评估它们处理类不平衡的能力,对几个最先进的方法进行经验分析。在调查的最后,我们介绍了几个深度长尾学习的实际应用场景,并确定了几个有前途的研究方向,供研究界在未来探索。

论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)_第2张图片
图2. 现有深度长尾学习方法的轴心。
我们将本次调查的主要贡献总结如下。

  • 据我们所知,这是第一次对深度长尾学习的全面调查,这将为研究人员和社区提供对深度神经网络的长尾视觉学习的更好理解。
  • 我们对先进的长尾学习研究进行了深入的回顾,并通过新的相对精度指标来评估最先进的方法在多大程度上处理了长尾类的不平衡,从而进行了实证研究。
  • 我们确定了方法创新的四个潜在方向,以及未来研究的八个新的深度长尾学习任务设置。

本调查的其余部分将被组织如下。
第2节提出了问题的定义,并介绍了广泛使用的数据集、度量标准和网络骨干。
第3节全面回顾了先进的长尾学习方法,
第4节基于新的评价指标实证分析了几种最先进的方法。
第5节介绍了深度长尾学习的应用场景
第6节则指出了未来的研究方向。
第7节中对调查进行了总结。

2 PROBLEM DEFINITION AND BASIC CONCEPTS

2 问题定义和基本概念

2.1 Problem Definition

深度长尾学习旨在从具有长尾类分布的训练数据集中学习深度神经网络模型其中一小部分类有大量样本,其余类只与少数样本相关(参见图1)。
设{xi, yi}ni=1为长尾训练集,其中每个样本xi都有一个相应的类标签yi。K类的训练集总数为n = PK k=1 nk,其中nk表示k类的数据数;让π表示标签频率的向量,其中πk = nk/n表示k类的标签频率。
在不失一般性的情况下,长尾学习 [31]、[32] 中的一个常见假设是类按基数降序排序(即,如果 i1 < i2,则 ni1 ≥ ni2 和 n1  nK), 然后将不平衡比定义为n1/nK

这项任务由于两个困难而具有挑战性:
(1)各类数据数量的不平衡使得深度模型偏向于头部类,而在尾部类上表现不佳;
(2)尾部类样本的缺乏使得为尾部类分类训练模型更加具有挑战性。

这样的任务是基本的,可能出现在各种视觉识别任务中,如图像分类[15], [32], 检测[19], [33]和分割[26], [34], [35]。

2.2 Datasets

论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)_第3张图片
长尾数据集的统计。"Cls. "表示图像分类;"Det. "代表物体检测;"Seg. "指实例分割。

近年来,各种用于长尾学习的视觉数据集陆续发布,在任务、类数和样本数上都有不同。在表1中,我们总结了在深度长尾学习领域广泛使用的九个视觉数据集。

在长尾图像分类中,有四个基准数据集。ImageNet-LT[15]、CIFAR100-LT[18]、Places-LT[15]和iNaturalist 2018[23]。前三者分别从ImageNet[39]、CIFAR100[40]和Places365[41]中按照帕累托分布取样,而iNaturalist是一个真实世界的长尾数据集。ImageNet-LT、Places-LT和iNaturalist的不平衡率分别为256、996和500;CIFAR100-LT有三种不同的不平衡率{10、50、100}的变体。

在长尾物体检测和实例分割方面,L VIS[36],提供精确的边界盒和掩码注释,是广泛使用的基准。在多标签图像分类中,基准是VOC-LT[37]和COCO-LT[37],它们分别从PASCAL VOC 2012[42]和COCO[43]中取样。最近,一个大规模的 "未修剪 "视频数据集,即VideoLT[38],被发布用于长尾视频的识别。

2.3 Evaluation Metrics

在长尾学习中,通常会报告所有类的总体表现以及头、中、尾类的表现。在不同的任务中,所使用的评估指标是不同的。例如,Top-1准确度(或错误率)是广泛用于长尾图像分类的指标,而平均平均精度(mAP)[44]则被用于长尾物体检测和实例分割。此外,mAP也被用作长尾多标签图像分类的指标,而视频识别则同时采用Top-1准确率和mAP进行评估。

2.4 Mainstream Network Backbones

现有的长尾学习方法是基于通用的网络骨架开发的,在不同的数据集中,这些网络骨架是不同的。
ImageNet-LT的常用做法是ResNet[10]和ResNeXt[45],深度不同,其中ResNet-50和ResNeXt-50是最常用的。此外,ResNet-32一般用于CIFAR100-LT;ResNet-50用于iNaturalist 2018;PlacesLT采用在ImageNet上预训练的ResNet-152。
对于LVIS数据集,广泛使用的架构是Mask R-CNN[46]或基于ResNet-50与特征金字塔网络(FPN)[47]的Faster R-CNN。
在多标签分类中,预训练的ResNet-50是VOC-LT和COCO-LT的共同选择.
而在VideoLT的视频识别中,预训练的ResNet-50和ResNet-101都被应用。在这些通用骨干网的基础上,最近的方法还探索了多个网络分支(即多专家)来改进骨干网[30],[48]。

2.5 Long-tailed Learning Challenges

长尾学习中最受欢迎的挑战赛事包括iNat[23]和L VIS[36]。
iNat挑战赛。iNaturalist(iNat)挑战赛是CVPR上一个大规模的细粒度物种分类竞赛。这项挑战旨在推动现实世界中具有大量类别的图像(包括植物和动物)的自动图像分类技术的发展。与其他分类挑战赛(如ImageNet大规模视觉识别挑战赛)相比,该挑战赛中的iNaturalist数据集[23]表现出长尾的类别分布,因此鼓励图像分类的进步。
LVIS挑战赛。大型词汇实例分割(L VIS)数据集[36]是一个高质量的实例分割数据集,有超过1000个物体类别。由于类别是长尾分布的,L VIS在ICCV/ECCV上提出了一个新颖的实例分割和物体检测挑战,与著名的COCO挑战不同。

2.6 Relationships with Other Tasks

2.6 与其他任务的关系
然后,我们简要地讨论了长尾学习与class-imbalanced learning, few-shot learning, and out-of-domain generalization.。这些关系在深度学习和非深度学习之间是一致的。

类平衡学习[5], [49]试图从类平衡的样本中训练模型。总的来说,长尾学习可以被看作是类平衡学习中的一个更具体、更具挑战性的子任务。相比之下,在类平衡学习中,类的数量可以非常少(如2个),少数类数据的数量也不一定少;而在长尾学习中,类的数量很多,尾部类的样本往往非常少。

小样本学习[50], [51], [52], [53]旨在从有限的标记样本(如1或5)训练模型。相比之下,小样本学习可以被看作是长尾学习的一个子任务,在这个任务中,尾部类的样本数量通常非常少。

域外泛化[54], [55]表示一类任务,其中训练分布与未知测试分布不一致。这种不一致包括不一致的数据边际分布(如领域适应[56]、[57]、[58]、[59]、[60]、[61]和领域泛化[62]、[63]),不一致的类分布(如长尾学习[15]、[28]、[32]、Openset学习[64]、[65]),以及前两种情况的组合。从这个角度来看,长尾学习可以被看作是域外泛化中的一项特殊任务。

3 CLASSIC METHODS

如图2所示,我们将现有的深度长尾学习方法分为三大类,包括类再平衡、信息增强和模块改进。更具体地说,类别再平衡包括三个子类别:重采样、成本敏感学习(CSL)和对数调整(LA)。信息增强包括转移学习(TL)和数据增强(Aug)。模块改进包括表示学习(RL)、分类器设计(CD)、解耦训练(DT)和集合学习(Ensemble)。根据这个分类法,我们在表2中梳理了现有的深度长尾学习方法,并将在下文中详细评述。

3.1 Class Re-balancing

类再平衡
类的再平衡是长尾学习的一个主流范式,它试图在模型训练中平衡不同类的训练样本数。我们从基于重新抽样的方法开始,然后是成本敏感的学习和Logit调整。

3.1.1 Re-sampling

重新取样是过去几十年来解决类不平衡的最广泛使用的方法之一[32], [34], [112], [113], [114], [115], [116]。重采样的常见做法是随机过采样(ROS)和随机欠采样(RUS)。 为了重新平衡类,ROS 随机重复尾部类的样本,而 RUS 随机丢弃头部类的样本。 然而,当类极度偏斜时,ROS 倾向于过度拟合尾部类,而 RUS 倾向于降低头部类的模型性能。 最近的长尾学习研究没有使用随机重采样,而是开发了各种采样方法,包括类平衡重采样和面向方案的采样。

类平衡重采样。 我们从 Decoupling [32] 开始,它根据经验评估了用于表示学习的长尾识别的各种采样策略。 具体来说,抽样策略包括实例平衡抽样、类平衡抽样、平方根抽样和渐进平衡抽样。 在实例平衡抽样中,每个样本被抽样的概率相等,而在类平衡抽样中,每个类被选中的概率相等。 此外,平方根采样[117]是实例平衡采样的一种变体,其中每个类的采样概率与相应类中样本大小的平方根有关。 渐进平衡采样 [32] 在实例平衡采样和类平衡采样之间逐步进行插值。

你可能感兴趣的:(数据不均衡&长尾学习,深度学习,人工智能,机器学习)