Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Sit

Abstract

论文作者提出:

  • In some label insufficient situations, the performance degrades on the decision boundary with high data density. Acommon solution is to directly minimize the Shannon Entropy, but the side effect
    caused by entropy minimization, i.e., reduction of the prediction diversity, is mostly ignored
  • We find by theoretical analysis that the prediction discriminability and diversity could be separately measured by the Frobeniusnorm and rank of the batch output matrix
    在迁移任务中,目标域由于没有标签,常常导致分界面附近混淆较多的数据。而我们基于这一现象,分析了批量类别响应组成的批量矩阵A,并希望从判别性和迁移性进行优化。

判别性
所谓判别性,指的是预测类别的过程是否坚定。比如对于二类问题的响应

[0.9,0.1]判别性较高,
[0.6,0.4]判别性较低。
常见的方法采用最小化熵来得到较高的判别性。我们发现矩阵A的F范数与熵有着相反的单调性,从而可以通过最大化A的F范数来提升判别性。

多样性
多样性可以近似表达为批量矩阵中预测的类别数量,即预测的类别数量多则响应多样性大。

考虑不同类别响应的线性相关性,如果两个响应属于不同类别,那么响应会差别较大线性无关,如果属于相同类别则近似线性相关。

[0.9,0.1]与[0.1,0.9]线性无关,
[0.9,0.1]与[0.8,0.2]近似线性相关。
那么预测类别数也就是矩阵中最大的线性无关向量数,即矩阵的秩。

核范数是矩阵奇异值的和,在数学上有两点结论

  • 核范数与F范数相互限制界限,
  • 核范数是矩阵秩的凸近似。
    所以类别预测的判别性与多样性同时指向矩阵的核范数,我们可以最大化矩阵核范数(BNM)来提升预测的性能
    Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Sit_第1张图片
    比如上图中,如果使用熵最小化(EntMin)和BNM来优化,当熵相同的时候,使用BNM优化更容易使得核范数更大,从而正确预测绵羊的样本(保障类别比重较少的数据有利于提高整体的多样性)

你可能感兴趣的:(论文阅读)