Decoupling Representation and Classifier for Lont-Tailed Recognition

Decoupling Representation and Classifier for Lont-Tailed Recognition

​ 长尾问题是基于深度学习分类模型的一大难点。现有的解决方案包括损失加权,数据重采样,头部类别到尾部类别的迁移学习。大多数方案都将表示和分类器联合学习。本文将学习过程分解成表示学习和分类。系统的探索了上述方法是怎么影响这两个部分,以获得在长尾分布上更好的表示。发现两个结果:

(1)在学习高质量的文本表示时,数据不均衡不是一个问题。(即使数据不均衡,也能学习到高质量的文本表示)

(2)使用最简单的实例均衡采样学习的表示,仅仅调整分类器就能获得很强的长尾识别效果。

本文为了研究针对长尾问题的方法究竟是学习了更好的文本表示,还是得到了更好的决策器分类边界。为此,将长尾识别分离成表示学习和分类器学习。

1、representation learning

采用不同的采样方法,直接用训练数据训练模型。得到每个样本的特征表示。在之后的分类器学习时,冻结表示学习部分,只调整分类器。在表示学习中,尝试了三种采样策略:

  1. 样本均衡采样。(按原始长尾分布采样)
  2. 类别均衡采样。(每个类别等概率采样,相当于过采样到每个类别数相等)
  3. 两种采样方式的混合

2、classification

采用下面三种方法来获得具有均衡边界的分类器。分类器的边界均衡在长尾问题识别中很重要。

  1. Classifier Re-training(cRT),使用类均衡采样重新训练分类器。只训练分类器,冻结其他参数。
  2. Nearest Class Mean classifier(NCM),不含参数的最近邻均值分类器。先求每个类别的特征均值,再根据距离度量选择最近样本的类别作为预测结果。
  3. τ − n o r m a l i z e d   c l a s s i f i e r ( τ − n o r m a l i z e d ) \tau-normalized classifier(\tau-normalized) τnormalized classifier(τnormalized),对分类器的权重进行归一化。直接使用归一化将权重调整的更加平衡,同时使用 τ , t e m p e r a t u r e \tau,temperature τ,temperature来调整归一化过程。

通过观察发现,使用样本平衡采样进行联合训练后,分类器中第j类的权重 w j w_j wj的范数和该类的样本数 N j N_j Nj成正相关。如下图:

Decoupling Representation and Classifier for Lont-Tailed Recognition_第1张图片

分类器中属于每个类别的权重范数不同,头部类别的决策边界会更占优。如下图:
Decoupling Representation and Classifier for Lont-Tailed Recognition_第2张图片

文章使用上述三种方法来获得更加均衡的决策边界。使用类均衡采样再次训练,每个类别的范数会更相近。最近邻由于没有参数,决策边界也是均衡的。下面详细介绍 τ − n o r m a l i z e d \tau-normalized τnormalized方法。

2.1 τ − n o r m a l i z e d \tau-normalized τnormalized

样本均衡采样联合训练后,权重 w j w_j wj的范数和该类样本数 N j N_j Nj相关。而使用类均衡采样微调后,分类器权重的范数更加接近。我们考虑使用 τ − n o r m a l i z a t i o n \tau-normalization τnormalization方法调整分类器权重的范数,来纠正不均衡的分类边界。设 W = { w j } ∈ R d × C W=\{w_j\}\in R^{d\times C} W={wj}Rd×C,其中 w j ∈ R d w_j\in R^d wjRd是分类器对应于类别j的权重。使用下面公式将 W W W放缩到 W ~ = { w ~ j } \widetilde W=\{\widetilde w_j\} W ={w j}:
W ~ i = W i ∣ ∣ W i ∣ ∣ τ , \widetilde W_i=\frac{W_i}{||W_i||^\tau}, W i=WiτWi,
其中 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 表示二范数, τ \tau τ是控制正则“温度”的超参。当 τ = 1 \tau=1 τ=1时,公式退化成标准L2正则。 τ = 0 \tau=0 τ=0时,不做放缩。经过 τ − n o r m a z a t i o n \tau-normazation τnormazation后,分类logits通过 y ^ = W ~ T f ( x ; θ ) \hat y=\widetilde W^Tf(x;\theta) y^=W Tf(x;θ)给出。 τ \tau τ值的选择和准确率曲线如下图:

Decoupling Representation and Classifier for Lont-Tailed Recognition_第3张图片

Learnable weight scaling (LWS).

τ − n o r m a l i z a t i o n \tau-normalization τnormalization的另一个解释是把它看做分类器 w i w_i wi放缩因子,保持其原有方向不变。
w ~ i = f i ∗ w i , w h e r e   f i = 1 ∣ ∣ w i ∣ ∣ τ \widetilde w_i=f_i*w_i,where\ f_i=\frac{1}{||w_i||^\tau} w i=fiwi,where fi=wiτ1
超参 τ \tau τ可以通过交叉验证来确定,也可以把它当做是可学习的参数,通过在训练学习得到。学习过程中冻结其他所有参数的权重。

3、实验结果

Decoupling Representation and Classifier for Lont-Tailed Recognition_第4张图片

如上图所示,使用解耦的方法能在除了头部类别以外的所有类别取得更好的结果。

在所有的采样方法中,使用样本均衡采样学习特征表示+边界均衡的分类器可以获得最高的性能。说明在原始分布下训练才能学习到最好的特征表示。影响长尾识别的效果的关键在于分类器的分类边界不均衡。使用 c R T cRT cRT或者 τ − n o r m a l i z a t i o n \tau-normalization τnormalization纠正分类边界后都能确定最好的长尾识别结果。

你可能感兴趣的:(自然语言处理)