TADAM: Task dependent adaptive metric for improved few-shot learning阅读笔记

人类通过看少数样例甚至是一个样例后,就可以学会识别从未见过的新类别,当然我们希望机器也可以具备这样的能力,所以近些年few-shot learning得到了广泛的关注,它的目标可以概括为构建一个可以从少量标记数据中进行归纳的模型。这里我们举个例子来描述小样本算法中的一个经典任务。在5-way 5-shot任务中,我们有25张图片做为support set,其中包含5张猫类照片,5张狗类张片,5张人类照片,5张汽车照片,5张房子照片,随后将几张没有标签的人类照片作为query set,我们的目标为给模型25张带有标签的图片后,让模型为query set中的图片做预测,预测其中的图片是属于5类中的哪一类。Support set中的五类图片可以是训练集出现过的,也可以上训练集中从未出现过的类别。解决这类问题已有的方法可以分为三类:(1)meta-learning方法,包括Matching Network,Relation Netowork,Prototypical Network,MAML等。(2)最大化来自不同类的示例之间的距离。(3)对不同类别的先验分布使用贝叶斯建模。

TADAM: Task dependent adaptive metric for improved few-shot learning阅读笔记_第1张图片本次分享的这篇论文是Boris N. Oreshkin等人发表在NeurIPS 2018上的文章,这个工作使用metric scaling方法来改变小样本算法的参数更新方式,在Mini-ImageNet 5-way 5-shot任务中准确率提升了14%。此外,作者提出了一种简单高效的方式来提取任务表示,构建了更加meta的神经网络来完成小样本图像分类任务。实验结果表明该网络结构性能达到了当前最优。
这篇文章的主要贡献概括为以下三点:
1)Metric Scaling:提出使用metric scaling来提升小样本算法的性能,具体做法则是在在计算完距离度量后学习一个scaling factor,这样能够让输出的度量在合适的范围内。
2)Task Conditioning:文中构建了一个TEN Network,通过任务的样例集来提取任务表示,并利用此作为环境特征来更新特征抽取器从support set中抽取的特征,让每个任务都有自己不同的特征输出,这让文中提出的模型更具有泛化能力。
3)Auxiliary task co-training: 使用传统监督分类任务中的数据来协同训练特征抽取器,这样的训练方式提供了更好的泛化效果。具体的两点优势在于:可以使初始化收敛更容易;通过让特征抽取器可以在解耦的任务上性能更优,可以给小样本任务提供一个更好的正则化。
TADAM: Task dependent adaptive metric for improved few-shot learning阅读笔记_第2张图片 上图是这个工作构建的网络结构,这个模型的工作流程可以分为三步,
1)通过Auxiliary task co-training的训练方式训练feature extractor,为support set和query set中的样例抽取特征得到Class Representation。其中feature extractor中采用的是ResNet-12结构。
2)借鉴Prototypical Network的思想,将每类的样例得到的向量表示求平均得到每一类的原型,随后使用类原型的平均值作为Task Representation,将这个任务表示作为输入,输入到TEN network中,然后根据它的数据更新feature extractor提取的特征,将任务特有的特征与样例提取的特征相结合,使得support set和query set的class representation更具有泛化性。
3)根据上一步的class representation计算Similarity Metric,随后乘以一个可学习的系数来缩放距离度量,增强模型的可适性。最后将这步输出投入到softmax中得到图片的最终分类。
注:模型中使用的损失函数为类交叉熵损失函数,具体计算方式如下。通过这个函数,也可以更好的理解scaled factor α \alpha α
在这里插入图片描述其更新方式如下:
在这里插入图片描述
从上式中可以看出,可以调整整体比例,同时也可以调节权重的比重,

这篇论文主要在mini-Imagenet和Fewshot-CIFAR100两个数据集上验证效果。其中mini-Imagenet数据集中有1000类图片,每一类包含600张8484的图片。Fewshot_CIFA100(FC100)是这个工作新引进的数据集,图像来源于CIFAR00。其中FC100数据集中有1000类图片,每一类包含600张3232的图片。TADAM: Task dependent adaptive metric for improved few-shot learning阅读笔记_第3张图片
实验结果表明,这篇文章提出的方法在1-shot,5-shot,10-shot任务中都结果都达到state-of-the-art。
此外实验部还验证了以下几个问题:i)metric scaling是否提升了小样本任务的准确率。ii)在整体框架中,各个部分对结果提升起到了什么作用。iii)Task Conditioning是否能提升实验结果。iiii)协同训练是否有效果。
TADAM: Task dependent adaptive metric for improved few-shot learning阅读笔记_第4张图片
首先作者复现了原型网络,使用Euclidean和Cosine Similarity来测试metric scaling的效果。后面三个实验在计算距离时分别使用的是:Euclidean距离,Cosine距离和Scaled Cosine距离。从结果可以看出使用Euclidean距离和使用Scaled Cosine距离的实验结果很接近,这证明了文章的假设,使用Euclidean距离实验结果提升的原因在于Scaling。
TADAM: Task dependent adaptive metric for improved few-shot learning阅读笔记_第5张图片
在上述实验中,验证了这篇文章提出的3个创新点对模型性能的影响。其中包括:Metric Scaling(α),Task Conditioning(TC),Auxiliary task co-training(AT)。结果表明,在mini-Imagenet和CIFAR-100两个数据集上,这三个步骤同时使用使得模型性能最优。

总而言之,这篇文章提出、分析和实证了几个在小样本学习中可以改进的方法。使用scaling factor可以更高效、更精确的计算出距离度量;使用task conditioning可以在增加任务特征,从而避免任务过拟合;使用协同训练可以让模型从以往的学习过程中受益,更佳贴合人类的学习方式。

你可能感兴趣的:(论文阅读笔记)