论文笔记:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION

原文地址
代码
本文来自ICLR20。对长尾识别,通常是joint学习,就是representation和分类一起进行。
本文的创新点就在于打破这个固有认识。

现有类平衡策略三种维度:损失重采样,数据重采样,学习从头到尾转换(迁移学习)。
第一种损失在各类别上不同,各类别的损失权重不同,难样本(hard example)需要更加重视。
第二种数据分布再平衡。头类的欠采样、尾类的过采样和数据实例的重加权。
第三种将头部知识应用到尾部分类。

问题
视觉现象遵循长尾分布,许多标准方法都无法正确建模,从而导致准确性显着下降。

原因
实例多的类别(头部)在训练过程中占主导,分类模型性能更好。
实例少的类别(尾部)性能明显较差。

已有方法:re-sample the data or design specific loss functions(Chawla et al., 2002; Cui et al., 2019; Cao et al., 2019)) 和transferring knowledge from the head classes(Wang et al., 2017; 2018; Zhong et al., 2019; Liu et al., 2019).
基于这样的假设:设计采样,损失或更复杂的模型来学习到高质量表示,以进行长尾识别。
但人们不知道,学习更好的表示形式还是通过改变分类器决策边界来更好地处理数据不平衡问题。

相关问题:开集的识别与分布外检测,难样本挖掘和少样本学习。
相关工作:数据分布重采样,类平衡损失,迁移学习。

提出idea,长尾识别分类与表示学习分离。

本文工作

  1. 将学习过程分解为表示学习和分类,探索不同的平衡策略。
  2. 评估多种采样学习策略和分类器训练。

结论

  • 数据不平衡不是高质量表示的问题。 去耦表示学习和分类结果很好。用类平衡采样对分类器进行再训练学习决策边界。
  • 利用实例平衡,仅调整分类器可具有长尾分布识别能力。
  • 在ImageNet-LT,Places-LT和iNaturalist数据集长尾基准测试终性能良好。

实验方法
训练模型学习三种采样策略的representations:基于实例的采样,类平衡采样以及两者的混合。
用三种方法学习决策边界:1)以类平衡的方式再训练参数化的线性分类器(re-sampling); 2)非参数化的最近分类均值分类器,该分类器根据训练集中基于特定分类的均值表示对数据进行分类; 3)归一化分类器权重,直接调整权重大小以使其更加平衡,并增加温度指标以调整归一化过程。
作者用解耦学习比较常规方案,后者联合训练分类器和representations。
作者比较using memory 的方法(OLTR (Liu et al., 2019)),(CVPR19),more sophisticated losses (Cui et al., 2019).

基于实例的采样:最简单的方式是等可能采样。
基于类别的采样:每一类的概率是该类占总体的比例。实际上分两步,先选择类别,再对该类别实例采样。
在这里插入图片描述

分别对应q=1,q=0,q=0.5是一种变体。
渐进平衡采样:先对多个T时间内用实例平衡采样,在最后一个T使用类平衡采样。
在这里插入图片描述

cRT: classifier re-training ,固定住representation,用采样得到的样本在少数T上重新初始化和优化分类器权重W和b。
NCM:Nearest Class Mean classifier。首先计算训练集上每个类别的平均特征表示,然后使用余弦相似度或基于L2归一化平均特征计算的欧几里得距离执行最近邻搜索。余弦相似度可消除权重不均衡问题。
τ-normalized classifier:对分类器权重归一化。
作者在相应的平衡测试/验证数据集上评估模型,并报告所有类别中常用的top-1准确性。

在第一个表示学习阶段,backbone通常训练90个epoch。 在第二阶段,为了重新训练分类器(cRT),作者重新启动学习率并将其训练10个epoch,同时固定网络结构。

联合训练是采样起到作用。

论文笔记:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION_第1张图片
作者将联合训练的不同采样策略与ImageNet-LT数据集上解耦学习方案的多种变体进行了比较。 对于联合训练,使用标准的交叉熵损失和不同的采样策略(即实例平衡,类平衡,平方根和 渐进平衡。对于解耦的学习,作者比较了重新初始化和重新训练(cRT),最近分类均值(NCM)以及τ归一化分类器学习的分类器。

作者尝试与线性分类器对backbone(ResNeXt-50)进行微调。 在表1中,当以标准或较小(0.1倍)学习速率对整个网络进行微调,仅对主干中的最后一个块进行微调或仅对线性分类器进行重新训练并固定representation时,整个网络进行微调会产生最差的性能(分别为46.3%和48.8%),而固定网络架构为最佳(49.5%)。 对于中等/少打类,这种趋势更加明显。

论文笔记:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION_第2张图片

由此作者的结论是实例平衡采样提供了最通用的表示形式。

与长尾数据集的sota比较
论文笔记:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION_第3张图片

扩展

OLTR:开放长尾识别,在头,尾和开放类的平衡测试集上优化分类精度。
真实世界的数据通常有一个长尾和开放式的分布。一个实际的认知系统必须对多样本类别和少样本类别进行分类,从少数已知的事例中归纳,对于从未见过的事例中识别为新事物。
算法思想:将图像映射到一个特征空间,基于一个learned的度量,尊重封闭世界的分类,同时承认开放世界的新颖性。
OLTR的关键挑战是尾部识别的鲁棒性和开放集的灵敏度:当训练实例的数量从在头类中的数千个下降到在尾部类中的少数,识别精度应保持尽可能高;另一方面,当开放集的实例数下降到零时,识别精度依赖于区分未知开放类和已知尾部类的灵敏度。
论文笔记:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION_第4张图片

网络架构:scratch ResNet-10作为ImageNet-LT的主干网络。使用预先训练好的ResNet-152作为place - lt的主干网络。对于MS1M-LT,流行的预训练ResNet-50是主干网络。

论文笔记:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION_第5张图片

你可能感兴趣的:(日记,深度学习,pytorch)