EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)

目前存在的问题:现实生活中的数据集的不平衡问题导致模型学出来的特征不平衡,多数类会主导特征空间。

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)_第1张图片

动机:

提出一种新型的训练模式k-positive contrastive learning. 结合了监督方法和对比学习方法的优点,学习具有区别性和均衡性的特征。

之前的做法:

交叉熵损失:

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)_第2张图片

CE损失训练的表示模型具有较强的语义识别能力,但其生成的特征空间容易因训练实例分布的不平衡而产生偏差,如果某些类的训练实例明显多于其他类,它们的数据表示将占据特征空间的主导部分

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)_第3张图片

解释:

τ是温度超参数

vi+是i的正样本,通常是数据增强,

vi-是i的负样本,从训练样本中随机抽取。

具体步骤:

对于每一个batch中的每一个输入xi,都选取中选取和xi属于同一个类的k个正样本,在去拉近彼此之间的特征距离。

KCL损失函数:

解释:

从同一个类中提取k个实例组成正样本集V+i,

Vik+是同一个类的k个vi的集合

~vi是vi数据增强后的特征向量

不只使用数据增强的正样本

监督对比学习利用来自同一类的所有实例来构建正样本对,这无法避免在表示学习中多数的类的主导地位,而KCL损失有意识地保持正样本的数量相等,这对于平衡学习到的特征空间至关重要。它带来了两个好处。首先,它利用标签信息作为监督学习,有助于学习具有更强辨别能力的表示。其次,在正样本结构中对所有类使用相同数量的实例(即k),进一步平衡了学习到的特征空间

指标:

Balancedness of feature spaces

解释:

ai是指模型对class i检测的准确度。

σ是一个固定的缩放参数

当所有类的准确度都相等时,即学习到的表示对任何类没有可分性偏差时,该指标达到最大值,这个指标是为了提供特征空间的平衡性的定量度量,但它有一定的局限性

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)_第4张图片

FCL对比

FCL是对一个batch中xi与它的所有数据增强的正样本进行对比,这样虽然有时取的样本数比KCL多,但是因为采样的问题,多数类的样本数往往比少数类的样本数要多得多,因此,多数类训练的次数就比少数类的次数多很多,这样会导致训练出来的模型对各个类所产生的特征空间就很不平衡,而KCL避免这一点,无论样本数目多少,都和固定的正样本数进行对比学习,这样的话,可以避免长尾分布造成 的特征空间分布不均的问题。

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)_第5张图片

你可能感兴趣的:((long-tail)论文阅读,机器学习,深度学习,人工智能)