[Paper Reading] AUM Identify Mislabeled Data using the Area Under the Margin Ranking

Identify Mislabeled Data using the Area Under the Margin Ranking

Paper Reading

  • Identify Mislabeled Data using the Area Under the Margin Ranking
    • Background
    • Contribution
    • Methodology
    • Discussion

Background

  • 目前关于noise-label 学习的工作一般包括两个大类
    • loss,一般就是通过改进loss,使得不同样本具有不同的权重,从而改善模型的效果,避免过拟合到noise label
    • re-label,一般就是通过某种方法找到可能是噪声的数据,从而给他们re-label
  • 本文从大类上看属于第二种范式,re-label。不同之处在于本文只关注找到mislabeled data,不会去纠正他们的标签。
  • 作者认为通过找到mislabeled data,然后删除他们可以构建一个较为纯净的数据集

Contribution

  • 作者提出了一种度量方式用于区分噪声数据和非噪声数据,称之为AUM(Area Under the Margin Ranking)。该方法可以针对每个sample计算一个AUM值。
  • 上述AUM值可以通过阈值来划分,但是阈值需要手动调整。因此作者提出了一种自动确定阈值的方法。

Methodology

  • Margin的定义如下所示,其中t代表是第t个epoch,x代表是输入的数据,y代表annotation labe,z代表的是最终prediction的logits。由式子定义可知其可能会去到负数,当为负数的时候,代表模型预测的结果可能和真值结果存在不同,因此当前样本可能是噪声。
    M t ( x , y ) = z y t ( x ) − m a x i ! = y z i t ( x ) M^{t}(x,y) = z^{t}_{y}(x) - max_{i != y}z^{t}_{i}(x) Mt(x,y)=zyt(x)maxi!=yzit(x)
  • 考虑到不同epoch margin值可能是不一样的,因此作者定义了如下所示的AUM值,它相当于对前T个epoch的Margin值计算了平均。
    A U M ( x , y ) = 1 T ∑ t = 1 T M t ( x , y ) AUM(x, y) = \frac{1}{T}\sum_{t=1}^T{M^t(x,y)} AUM(x,y)=T1t=1TMt(x,y)
  • AUM值越小代表这个样本越有可能是噪声数据,但是只根据ranking是没有办法得到一个绝对的划分。因此需要一个绝对的划分。
  • 作者提出使用threshold samples,作者从训练集合中抽样一部分数据出来作为threshold samples,这部分数据会人为的指定噪声标签,并且加入训练。最终这部分数据的AUM前从高到底排序的90分位值即可以作为AUM的阈值,用于划分噪声数据和非噪声数据。

Discussion

  • 关于截止时间。因为训练到后面均会在训练集上拟合的较好,因此如何选择AUM计算的终止时间至关重要。作者提出在第一次进行学习率调整的时候即可以终止。
  • 关于噪声数据的噪声分布。该文章大部分的假设是基于噪声数据是平均分布的,即就是等概率的分为其他类别。作者也讨论了非对称的噪声分布。相比于等概率的平均分布,非对称噪声数据对噪声的容错能力较低。作者实验证明,非对称数据中,40%的数据是噪声数据,其偏向于某一类。在该组实验中,非对称组对噪声识别的recall就会大幅降低(即不能找到噪声数据)。原因在于如果是非对称分布,就会使得正确样板的AUM值减少,mislabeled的AUM值增大。如第一个公式所示。正确样本的前一项减少(因为原来最大可能是80%,现在就变成了60%)。mislabeled样本的margin会增大。

你可能感兴趣的:(深度学习,论文阅读,AUM,噪声,noise,data,噪声数据,噪声学习)