论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight

  • Motivation

在度量学习中,一些方法额外加一个正的边界整合到softmax损失或余弦softmax损失,以强制在真实标签类的分数比其他类的分数至少大一个margin(正的)。这有助于学习具有高度区别性的深度特征,在视觉识别任务中,性能有显著提高。

因此作者希望在小样本分类采用这种 large-margin softmax损失来学习更好的度量,但结果却出乎意料。具有正边距的large-margin softmax所学习的度量在训练类别上是能够提升分类效果,但在来自新类的验证集上精度却会下降

论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight_第1张图片 

  • Contribution

  1. 本文第一次尝试证明带负marginsoftmax损失在小样本分类中惊人地有效,这打破了margin只能被限制为正值的固有理解;
  2. 提供了深刻的直观的解释和理论分析,为什么负margin适用于小样本分类;
  3. 提出的负margin方法在三个广泛使用的小样本分类benchmark上取得了很好的效果。
  • 核心内容

1. Negative-Margin Softmax Loss

使用softmax图像分类基于得到的features:

 

以及线性分类器权重:

Large margin softmax loss的一般定义为:

 

这里s(·, ·)代表两个输入向量的相似度函数,mmargin parameter,β表示温度参数,它定义了扩大最大logit和其他logit之间的差距的强度。

close-set场景上,较大的边缘损失导致类内方差较小,类间方差较大,这将有助于对同一类中的例子进行分类。在 open-set场景中,对训练类别过于区分的度量在新类别中不一定使用(可以理解成在训练类别上发生了过拟合)。

取内积相似度,可得到negative-margin softmax loss(简称Neg-Softmax)

取余弦相似度,可得到negative-margin cosine softmax loss(简称Neg-Cosine)

2. 不同margin下,特征的可判别性(Discriminability Analysis)分析

每个类样本特征的均值:

类间方差和类内方差计算式:

 

Discriminative function:

 

 论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight_第2张图片

3. 直观解释

MNIST1上使用不同margin训练模型的特征分布在角空间中进行可视化:

论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight_第3张图片

图中第一行,随着margin增大,基类上的类内方差较小,类间方差较大。但是,输出空间更窄。

从图第二行右侧可以看到,由于novel类与base类不同,因此有较大margin的模型或许将novel类中同一类的数据点映射到属于不同base类的多个峰值或簇。因此新类的类内方差也随之增大,使得新类的分类更加困难。

图中左侧,适当的负边缘不会使novel类中的数据点过于靠近training center,可以缓解multipeak问题,有利于novel类的分类。

4. 整体的训练框架

论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight_第4张图片

  • 实验部分

single domaincross-domain上都有很好的效果:

论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight_第5张图片

论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight_第6张图片

  • 总结

这篇文章的切入点感觉非常简单直接,但是一篇很好的通过实验发现问题然后解决问题的文章。

包含正的marginloss会让学习到的基类的特征更具有判别性(或者说更易区分)但不利于测试任务的分类。自适应损失的原理是类似的学习生成一个更适合特定任务的决策边界,会不会也造成在基类(训练任务)效果更好,但在差异较大的新类(测试任务)上效果会变差,扩展到跨域设置的时候这个问题是需要去考虑的。

你可能感兴趣的:(基于度量的元学习,小样本学习,跨域小样本学习,机器学习,深度学习,分类)