基于度量的小样本分类
我们提出了一种基于类的度量缩放(CMS)机制,它可以应用于训练和测试阶段。具体地说,在训练阶段,度量标量被设置为可学习参数,帮助学习更有区别和可转移的特征表示。在测试方面,我们构造了一个凸优化问题来生成一个最优标量向量来改善最近邻决策。此外,我们还涉及到一个低秩双线性池化层,以提升表示能力,这进一步提供了显著的性能增益。
最近基于最接近类中心的方法[32,39,6,7,4]由于其简单和有效而引起了广泛的关注。这些方法的基本步骤是预训练一个特征提取器,其中训练方式可以是元学习[39,41]或只是带有可学习的分类层的常规监督训练[32,6,7]。为了解决一个目标小样本任务,利用少量标注样本的特征嵌入构造了一个最接近中心的分类器。一般来说,每个类的中心可以通过属于该类的嵌入的平均值来计算。值得注意的是,最近的类中心分类器只存储一个类中心向量来表示一个类别。这种有限的表示在小样本情况下成为一种优势,因为它有效地缓解了过拟合。
在图一(a),左边虚线在两个类中心中间,但是,类1比类2分布更大而且内方差更大。直观地,更合理的决策边界应该更偏向类2。为了改进有偏差的决策边界,我们提出了CMS,我们将普通的不可知类的距离与基于类的关于类分布的度量标量相乘,如图一(b)所示。因此,可以隐式考虑类内方差的多样性,以提高分类精度。
CMS的优势:
1。基于类分布信息对每个类别进行缩放的方法不会改变任何训练过程或度量函数,实现简单;
2。CMS中的缩放值(标量)约等于类别方差的倒数。CMS可以认为是一种特殊的高斯混合模型,带来更灵活的类别表示。
3。CMS在元训练阶段学习得到,并在元测试阶段自适应的为每个任务得到task-specific scale,即CMS也使元测试阶段受益。
在跨域场景和半监督小样本学习方面也有贡献
Meta-learning
情景训练机制有效促进了小样本学习的发展。大多数情景训练方法基于对新任务快速适应下的模型最优化和避免过拟合。然而,在测试阶段,这些方法由于模型微调是费时的。
Metric-based few-shot Learning
基于度量的方法的目标是首先是学习深度可转移的表示,然后推广它来识别新类,我们的方法就是基于度量的。由于不同的训练过程,我们可以分为两类。一类是基于情景训练学习特定的距离度量,比如原型网络,关系网络, TADAM ,Covariance Metric Networks ,DeepEMD。另一类是用标准监督学习方式预训练一个带有分类层的特征提取器,然后建立一个nearest-centroid(最近中心)分类器去解决目标小样本任务。特别的,之前的一些方法另外应用了任务自适应模块[11,12,22]来获得更精确的类质心,而其他的工作[4,6]表明,直接使用(well-regularized)正则化良好的特征提取器来构建(mean-centroid )均值质心分类器也是合适的。
Bilinear Representations
双线性池化层和他的变体在细粒度分类中扮演关键角色。最近的研究[50,45,51]也利用这种共现统计来解决小样本学习,并证明了良好的改进。然而,标准BP[23]模型存在内存消耗高的问题。Instead,我们利用了低秩变体[16],它不仅显示了较低的内存消耗,而且比标准变体具有更好的性能。
一个问题,Category Scalars是个标量吗?Distances是概率,Category Scalars就是对概率进行缩放?
3.1.1问题定义
a base set Db = {(x, y)} ⊂ X × Yb for training,
a validation set Dv = {(x, y)} ⊂ X × Yv for model selection,
and a novel set Dn = {(x, y)} ⊂ X × Yn for testin
3.1.2Nearest-Centroid Classifier (NCC)
NCC遵守最近邻原则。在一个新的小样本任务中,一个查询集实例和每一个类中心cj通过一个度量函数进行比较。查询集样本属于某个类的条件概率是:
为了利用训练集Db得到特征提取器,有两种预训练方式。
一(文献39,41)是利用元学习中的情景训练机制;二(文献11,32,12)是直接进行一个有可学习的分类层的常规监督训练程序。为了使新的类的类中心更加精确,文献11和12通过附加情景训练阶段进一步训练一个权重生成器。
相比之下,最常规的方式还是原型网络中的类原型。
LBP是低秩双线性池化层。对特征提取器的最后一层feature map进行分解,然后应用LBP。
在元训练和元测试阶段,CMS可以分别改进特征表示和任务适应。
3.3.1 CMS for Embedding Learning
在元训练阶段,我们采用传统的监督训练过程[11,32],预训练特征提取器,这个提取器结合基于距离度量的分类层,我们将分类层(是分类层吗?)视为一组可学习的类中心。形式上,为了执行CMS,我们定义了一个可学习的metric scaler向量
s^b 每个成分对应于
c^b中的每个基类中心。可以看到损失函数,每一个包含基类中心的度量函数的前面都对应一个度量缩放器。
Nb代表基类的数量;d代表特征维度。f()代表特征提取器。损失函数如下:
Discussion
缩放 softmax 中的余弦相似度损失是改进常见分类任务中嵌入学习的实用技能 [34, 43, 44, 52] 并且最近也应用于小样本学习 [32, 31, 11, 4],其中所有的相似度分数共享相同的比例因子 s。 相比之下,在图1的动机下,我们开发了一种按类别缩放的方式,并且度量不限于余弦相似。 此外,我们已经证明,通过考虑第 3.4 节中的类内方差,利用 CMS 是相当于引入了更灵活的类表示。
将scaler在余弦相似度方面的应用引入到当前任务来。
整体架构图:
此图:The overview of the few-shot testing procedure
3.3.2 Optimal CMS for Novel Few-shot Tasks
不像之前的度量缩放方法,为所有类别设置一个相等的标量,只有利于嵌入学习,本文的CMS可以在元测试中利用特定任务的知识进一步提升泛化。与包含附加情景训练阶段的参数化适应模块不同,我们的CMS直接针对给定的具有凸优化问题的新的小样本任务执行。
在给定一个新的小样本任务时,CMS的目标是优化支持集S上的后验概率,得到最优标量参数sn
使用frozen(啥叫frozen)的特征提取器f(),我们将从f()传递来的支持集样本(支持集样本由f函数表示这个意思?)表示成一个特征点集 S′
遵循 NCC 分类器,类中心C^n由等式2计算得出。我们的目标函数是找到最优参数sn,使支持点集S '的似然值最大化,其等价于使负对数似然值最小化,如下所示:
其中d (zi, cj ) 代表frozen特征空间中的常量,我们将它表示为di,j。通过展开对数似然函数和增加L2正规化,总的目标函数就是在变量Sn中最小化下面的优化问题:
β 是一个非负的加权系数。优化问题具有以下两个关键特征。
Convexity(凸性)
除了正则化项,目标优化函数还包括di,yi ∗sn,是缩放向量sn的线性组合;还包括具有另一个缩放向量线性组合的log-sum-exp函数。【a log-sum-exp function with another linear combination of scaler vector请问这是啥意思?】(——+——)而且这个函数在其每个参数中是凸的和非递减的。通过文献2(凸优化)的向量组成法则,等式6即上图是凸的。
Low-dimensionality(低维)
值得一提的是,优化问题中仅仅有N(一般是5)个变量。受益于低维性,我们采用了一种二阶优化算法BFGS作为求解器。利用基类度量标量sb的平均值来初始化sn,使其快速收敛。
最终,对于一个查询样本,带有最优化标量的 metric-scaled预测是:
对于一个N-way分类任务,我们把特征点集看成遵循高斯混合分布:
其中,每一个类的分布都被视为一个独立的高斯函数φ,αi为属于第i类的先验概率,并且∑αi = 1即各个类的先验概率和为1.简单起见,我们考虑具有特定均匀(or统一的)方差Σi 的球形高斯分布,其密度形式为:
方差:
属于the ground truth class k 的特征x(d维)的条件概率can be derived as follows:
在条件下:
CMS的后验概率和高斯混合模型是等价的。在这种情况下:
他们都有相同的类下标i。
现在,我们在第一张图片中的动机——度量标量对应类内方差被证明,即优化后,对方差σi较大的类分配较小的标量值si。因此,包含的CMS机制相当于考虑了类方差。此外,将普通的NCC扩展为基于cms的NCC本质上允许更灵活的类表示,这将隐式地捕获类内方差。由于类共享相同的标量/方差(s/σ), CMS分类器可以进一步简化为NCC。
特别地,度量标量即s在训练阶段被设置为可学习参数,这使得特征表示具有更强的鉴别性和可转移性。在测试方面,基于极大似然法,提出了一种凸优化程序,用于生成小样本任务的最优度量标量。此外,CMS可以在数学上解释为高斯混合模型的一种特殊情况。