样本不平衡的数据建模——decoupling representation and classifier

一、简要说明

decoupling representation and classifier(解耦特征表示模块和分类模块),将原来的分类模型拆分成两部分分别进行训练。比如ResNet-50,一般有神经网络层+分类层(全连接+softmax)构成。以前的模型是对这两部分做联合估计和拟合,但是decoupling representation and classifier是将这两部分分开来估计。

二、来源

该方法来自于论文:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION
论文网址:https://openreview.net/pdf?id=r1gRTCVFvB
论文代码:https://github.com/facebookresearch/classifier-balancing
该方法据说有The state of art的效果,但本人还没有测试。

三、数据集

论文数据集
Places-LT 、mageNet-LT 、iNaturalist 2018都是图片数据集。三个数据集有些类别的样本量特别少(如5个),而有些类别的样本量很多(如5千个)。建模目的是对图片进行分类。

四、模型架构

特征表示部分使用ResNet-50模型,分类部分作者尝试了多种形式,这些形式的一般形式是
在这里插入图片描述

1)Classifier Re-training (cRT)
先对ResNet-50和classifire部分进行训练,然后ResNet-50模型架构保持不变,利用class-balanced数据对上面的一般形式进行拟合。

2)Nearest Class Mean classifier (NCM)
对ResNet-50模型输出的特征利用距离公式(如cosin,欧式距离)计算样本之间的距离来得到最后样本的类别。

3)τ-normalized classifier (τ-normalized)
为了使得每个类别的权重一致,对权重W进行标准化处理,如下(其中tou是一个超参数):在这里插入图片描述在这里插入图片描述
4)Learnable weight scaling (LWS)
固定特征模块和分类模型,利用class-balanced数据估计fi.
在这里插入图片描述

五、数据抽样方式

论文中的抽取样本的方式有多种,一般公式是:
在这里插入图片描述
pj的意思是第j个类别被抽到的概率。

1)Instance-balanced sampling
每个样本被抽到的概率是相等的,q=1.

2)Class-balanced sampling
每个类别被抽到的概率是相等的,q=0.

3)Square-root sampling
q=0.5

4)Progressively-balanced sampling
在这里插入图片描述
其中t表示epoch。

六、模型效果

下面展示的模型效果均来自于论文。
对于少样本量的数据,解耦特征部分和分类部分的效果要好。而对于多样本量的数据,联合拟合模型的效果要好。
样本不平衡的数据建模——decoupling representation and classifier_第1张图片
下表是解耦方法和其他方法在三个数据集上的效果比较,解耦方法的效果好很多。
样本不平衡的数据建模——decoupling representation and classifier_第2张图片
注:以上内容均为本人对论文的理解,如有不当之处,欢迎各位网友留言指正。

你可能感兴趣的:(神经网络)