Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recogni

Note:还没写完

Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recognition
Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recogni_第1张图片

Code:: https: //github.com/amazon-research/

摘要

现有的分布外 (OOD) 检测方法通常在具有平衡类分布的训练集上进行基准测试。然而,在实际应用中,训练集通常具有长尾分布。在这项工作中,我们首先证明当训练集是长尾分布时,现有的 OOD 检测方法通常会遭受显着的性能下降。通过分析,我们认为这是因为模型难以将分布中的少数尾类样本与真正的 OOD 样本区分开来,使得尾类更容易被错误地检测为 OOD。为了解决这个问题,我们提出了部分和非对称监督对比学习(PASCL),它明确鼓励模型区分尾类分布样本和OOD样本。为了进一步提高分布内分类的准确性,我们提出了辅助分支微调,它使用 BN 和分类层的两个独立分支分别进行异常检测和分布内分类。直觉是分布内和 OOD 异常数据具有不同的底层分布。Our method outperforms previous state-of-the-art method by 1.29%, 1.45%, 0.69% anomaly detection false positive rate (FPR) and 3.24%, 4.06%, 7.89% in-distribution classification accuracy on CIFAR10-LT, CIFAR100-LT, and ImageNet-LT, respectively. Code and pre-trained models are available at https: //github.com/amazon-research/

1. 介绍

众所周知,深度神经网络 (DNN) 对他们不知道的东西过于自信。 给定一个不属于任何训练类的测试样本,DNN 往往会不顾一切地将这个分布外 (OOD) 测试样本预测为具有高置信度的训练类之一,这注定是错误的(Hendrycks & Gimpel, 2017 年;海因等人,2019 年)。 已经提出了许多 OOD 检测方法来解决这个问题,并取得了可喜的结果(Hendrycks 等人,2019;Mohseni 等人,2020;Liu 等人,2020)。 OOD 检测的目标有两个:(i)区分 OOD 样本和分布内样本(即异常检测),以及(ii)仍然在分布内样本分类上实现高精度。

现有的 OOD 检测方法通常在平衡的训练集上进行评估。然而,现实应用中的训练集通常遵循长尾分布(Van Horn & Perona,2017;Liu 等人,2019;Cui 等人,2019;Menon 等人,2021)。鉴于此,我们在长尾训练集上对现有的 OOD 检测方法(包括广泛使用的经典方法和最近发表的方法)进行了基准测试。与在平衡训练集上获得的结果相比,我们观察到异常检测和分布分类方面的性能显着下降(表 1)。这显示了 OOD 检测对长尾识别 (LTR) 任务的挑战。此外,我们表明它不能通过简单的解决方案轻松修复,例如结合最先进的 OOD 检测和长尾识别方法(表 2)。通过特征可视化(图 1),我们进一步揭示了这种性能下降的根本原因:模型难以区分尾类分布样本和 OOD 样本。相比之下,头类分布样本可以很容易地与 OOD 样本区分开来。

表 1. 长尾识别中 OOD 检测的挑战:现有的 OOD 检测方法在长尾数据集上训练时性能显着下降。 对于每种方法,我们分别在 CIFAR10 和 CIFAR10-LT 上训练两个 ResNet18 模型。 报告了 SC-OOD 检测基准中六个不同 OOD 测试集的平均性能。 括号中显示了每种方法从 CIFAR10 训练集到 CIFAR10-LT 训练集的性能下降。 所有结果均以百分比显示。
Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recogni_第2张图片

表 2. 最先进的 OOD 检测和长尾识别方法的简单组合无法解决 OOD 检测在长尾识别 (LTR) 中的挑战。 所有方法都使用 ResNet18 在 CIFAR10/100-LT 上进行训练,并在 SC-OOD 基准上进行评估。 最佳结果以粗体显示,次佳结果以下划线显示。 我们的方法显示了六次随机运行的平均值和标准偏差。
Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recogni_第3张图片

受这些观察的启发,我们提出部分和非对称监督对比学习(PASCL)作为长尾识别中OOD检测的解决方案。 关键的直觉是通过监督对比学习(SCL)将尾类分布中的样本从特征空间中的 OOD 样本中推开。 我们技术设计的核心思想是头类分布、尾类分布和OOD样本在长尾OOD检测中的作用不同,因此在对比学习中应区别对待。 与传统的监督对比学习(Khosla et al., 2020)相比,PASCL 具有两个为长尾训练集上的 OOD 检测量身定制的重要见解:偏性和不对称性(partiality and asymmetry)。

Partial and Asymmetric Contrastive Learning for Out-of-Distribution Detection in Long-Tailed Recogni_第4张图片
图 1. 特征空间中分布和 OOD 样本的可视化。 我们使用与 (Pang et al., 2020) 中相同的可视化方法,可视化由 OE 在 CIFAR10-LT 上训练的 ResNet18 的倒数第二层特征。 可视化来自每个分发类的 100 个测试样本和 100 个 OOD 样本。 该模型难以区分尾类分布中的类,如“马”(灰色)和“船”(黄色)与 OOD 样本(黑色)。 请注意,在 CIFAR10-LT 中,每个类中的训练样本数量遵循字母顺序:“飞机”类的训练样本最多,“卡车”类的训练样本最少。 为了进行比较,请参阅附录 B 中平衡 CIFAR10 训练集的可视化。

▷ Partiality:通过特征可视化(图 1),我们观察到尾类分布中的样本与特征空间中的 OOD 样本有很大的重叠,而头类分布中的样本与 OOD 样本的分离度相对较好。 出于这个原因,我们只对尾类分布和 OOD 样本应用对比损失,而不是对所有训练样本应用对比损失。 换句话说,我们只将 OOD 数据从尾类分布数据中推开。 否则,如果我们同时将 OOD 样本从所有分布内样本中推开,那么学习过程将偏向于区分头类分布内数据和 OOD 数据,从而无法区分尾类分布内数据和 OOD 数据。 这是因为头类分布和 OOD 数据构成了训练集的绝大部分。 实验结果表明,偏性在长尾识别下的OOD检测中起着重要作用。

▷ Asymmetry:对于传统的有监督对比学习,来自同一类的样本被视为正对。 然而,在 OOD 检测中,训练 OOD 图像不一定来自同一类,也不应该在特征空间中将它们拉到一起。 实际上,OOD 训练集通常具有巨大的多样性(在低级视觉特征和高级语义方面),以便对开放的视觉世界具有足够的代表性。 因此,在将尾类分布样本从 OOD 样本中推开的同时,我们将同一类内的尾类分布样本拉到一起,但不将 OOD 训练样本拉到一起。 实验结果表明,这种对分布内和 OOD 样本的非对称推挽操作是获得良好性能的重要因素。

为了进一步提高 OOD 检测中的分布内分类精度,我们提出了辅助分支微调 (ABF)。当前最先进的 OOD 检测方法使用分布式数据和 OOD 数据训练模型(Hendrycks 等人,2019;Liu 等人,2020;Mohseni 等人,2020),其中批量标准化( BN) 统计数据是使用分销和 OOD 数据估计的。尽管这种分布内和 OOD 数据之间混合分布的 BN 统计有利于异常检测,但它们并不是分布内分类的最佳选择。这是因为分布内数据和OOD数据具有不同的底层分布,因此BN中估计的混合分布统计量与分布内测试数据的统计量不匹配。以前的工作表明,即使 BN 统计数据中的轻微不匹配也会导致协变量变化下的性能显着下降(Chang 等人,2019;Benz 等人,2021;Xie & Yuille,2019)。此外,分类层(即最后一个全连接层)已被经验证明在长尾识别中发挥重要作用(Kang et al., 2020)。因此,我们的辅助分支微调方案使用 BN 和分类层的两个独立分支进行异常检测和分布内分类,而所有其他层在两个任务之间共享。

我们在最近发布的语义一致的 OOD 检测基准(Yang 等人,2021)上评估了我们的方法。 PASCL outperforms previous state-of-the-art method by 1.29%, 1.45%, 0.69% anomaly detection false positive rate (FPR) and 3.24%, 4.06%, 7.89% in-distribution classification accuracy on CIFAR10-LT, CIFAR100-LT (Cao et al., 2019), and ImageNet-LT (Liu et al., 2019), respectively.

2.相关工作

OOD 检测 Hendrycks & Gimpel (2017) 正式研究了深度学习中的 OOD 检测问题。 作者建议使用最大 softmax 概率 (MSP) 作为 OOD 检测的幼稚基线,而观察到的 DNN 通常对 OOD 测试样本过于自信。 还研究了其他 OOD 检测措施,例如革兰氏矩阵 (Sastry & Oore, 2020)、马氏距离 (Lee et al., 2018) 和自由能 (Liu et al., 2020)。

亨德利克斯等人。 (2019) 提出了经典的异常值暴露 (OE) 方法,该方法利用未标记的辅助训练集作为 OOD 训练数据。 OE 将均匀分布分配为 OOD 训练数据的伪标签,然后最小化分布内和 OOD 训练数据的交叉熵损失。 与以前仅使用分布内训练样本的方法相比,辅助 OOD 训练样本的使用大大提高了 OOD 检测性能。 此后,OE 已成为许多后续作品的基石。 EnergyOE (Liu et al., 2020) 最大化 OOD 训练样本的自由能。 OECC (Papadopoulos et al., 2021) 将 OE 中的交叉熵损失替换为总方差损失,并进一步添加了置信度校准损失项。 NTOM (Chen et al., 2021) 提出将所有 OOD 样本分类为一个弃权类,并使用硬样本挖掘来选择每个 epoch 中信息量最大的 OOD 训练样本。

最近,杨等人。 (2021) 考虑了一个更具挑战性的场景,其中未标记的辅助训练集可能同时包含分布内和 OOD 数据。 他们提出了无监督双重分组(UDG)来分割未标记的分布和OOD训练样本。 作者还指出,分布内数据甚至广泛存在于以前的 OOD 基准测试中。 为了解决这个问题,作者构建了一个新的 OOD 检测基准,称为语义一致的分布外检测 (SC-OOD),这似乎比以前的基准更具挑战性 (Yang et al., 2021)。

之前的几项工作表明,对比学习 (CL) 和距离度量学习有利于平衡训练集上的 OOD 检测(Winkens 等人,2020;Zhou 等人,2021a;Sohn 等人,2021;Yang 等人,2020 )。 我们的 PASCL 与它们不同,因为它是针对长尾数据集上的 OOD 检测问题量身定制的,这是先前文献中未解决的新挑战。

长尾识别 长尾识别最直接的解决方案是使用欠采样或过采样重新平衡训练集(He & Garcia,2009)。 然而,这些方法导致在大规模深度学习中的表现不尽如人意(Cui et al., 2019; Wang et al., 2021b)。 康等人。 (2020) 观察到,在对不平衡数据进行 DNN 训练后,只需在重新平衡的数据集上重新训练分类层即可显着提高长尾识别性能。 最近,Menon 等人。 (2021) 提出了一个正式的长尾识别统计框架和一种称为 logit 调整的基于统计的长尾识别方法,该方法比以前的方法取得了令人印象深刻的改进。

长尾 OOD 检测 Roy 等人。 (2022)研究了医学图像分析中的长尾OOD检测问题,其问题设置与我们的问题相关但本质上不同。在他们的工作中,所有的头类都是分布内的,而所有的尾类都被认为是OOD。他们的目标是将头类分布样本与尾类 OOD 样本区分开来。相比之下,在我们更一般的问题设置中,分布内样本来自头类和尾类,OOD 样本也是如此。 OLTR (Liu et al., 2019) 是一种考虑开放集分类的长尾识别方法。其主要目标是提高长尾识别而不是OOD检测中的分布分类精度。尽管它实现了比 MSP 等原始基线更好的 OOD 检测性能,但它无法与 OE 等最先进的 OOD 检测方法相媲美(结果见附录 C.3)。相比之下,我们的论文侧重于提高长尾训练集的 OOD 检测性能。更多相关工作在附录 D 中讨论。

3.长尾识别中OOD检测的挑战

在本节中,我们首先检查现有 OOD 检测方法在长尾训练集上的性能。 具体来说,我们对六种不同的 OOD 检测方法进行了基准测试,包括两种广泛使用的经典方法(例如 MSP(Hendrycks & Gimpel,2017)、OE(Hendrycks 等人,2019)、EnergyOE(Liu 等人,2020)、SOFL( Mohseni et al., 2020) 和最近发表的新方法(例如 OECC (Papadopoulos et al., 2021)、NTOM (Chen et al., 2021))。我们在 CIFAR10 (Krizhevsky, 2009) 和 CIFAR10 上训练所有方法 -LT(即 CIFAR10 的长尾版本),不平衡比率 1 ρ = 100。

然后,我们在最近发布的 SC-OOD 基准上评估 OOD 检测性能。 结果总结在表 1.2 中 与在平衡 CIFAR10 数据集上获得的结果相比,CIFAR10-LT 在异常检测和分布分类方面均导致性能显着下降。

我们进一步表明,这种挑战不能通过简单的解决方案轻松解决,例如将最先进的 OOD 检测方法与最先进的长尾识别方法相结合。 具体来说,我们将 OE 与三种流行的长尾识别方法相结合:重新加权 (Cui et al., 2019)、τ-norm (Kang et al., 2020) 和 logits 调整 (LA) (Menon et al., 2021)。 结果如表 2 所示。正如我们所见,与原始 OE 基线相比,将 OE 与长尾识别方法相结合并不一定会带来好处:例如,在 CIFAR10-LT 上,与所有方法相比,OE 具有最好的 AUROC 和 AUPR 三种组合方式。 相比之下,我们的方法(稍后介绍)实现了相当大的改进。

为什么 OE 在长尾识别上失败 OE 在 CIFAR10 和 CIFAR10LT 上训练的模型的特征分布分别在图 4(附录)和图 1 中可视化。正如我们所看到的,在平衡的 CIFAR10 数据集上,OOD 样本与所有分布中的类很好地分离(图 4)。相比之下,在 CIFAR10-LT 上训练时,尾类分布(例如,马、船)样本和 OOD 样本的特征严重重叠,而头类分布(例如,飞机、汽车、鸟)的特征) 样品与 OOD 样品分离良好(图 1)。这表明在长尾数据集上,OE 训练的模型难以区分尾类分布样本和 OOD 样本,这可能是 OE 在长尾识别上性能下降的主要原因。对这种现象的直观解释是尾类分布中的样本在训练集中很少出现,因此更有可能导致像 OOD 样本这样的低置信度预测。

你可能感兴趣的:(python,机器学习,人工智能)