【论文阅读一】Adaptive Cross-Modal Few-shot Learning

1、introduction

这篇文章提出了一种将语义与视觉知识相结合的自适应的cross-modal。视觉和语义特征空间根据定义具有不同的结构。对于某些概念,视觉特征可能比文本特征更丰富,更具辨别力。但当视觉信息在图像分类中受到限制时,语义表示(从无监督的文本语料库中学习)可以提供强大的先验知识和上下文以帮助学习。此文就是基于此开展研究的,提出了Adaptive Modality Mixture Mechanism(AM3),an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元学习方法上形成的,通过比较在已学习的度量空间中的距离来实现分类。文章在原型网络Prototypical Networks for Few-shot Learning的思想基础上,加入了文本信息(即语义表达)。

2、algorithm

【论文阅读一】Adaptive Cross-Modal Few-shot Learning_第1张图片

在AM3中,文章增加了基于度量的FSL方法,以结合由词嵌入模型W学习的语言结构(pre-trained on unsupervised large text corpora),在所有类别中包含了label embeddings。由于考虑到了label embeddings,AM3对每个类修改了原型表达(prototype representation)。有上图(左)就可以看出AM3将视觉和语义特征表达的凸组合形成最终的类原型(category prototype),参数化表示为:

其中:

【论文阅读一】Adaptive Cross-Modal Few-shot Learning_第2张图片 对于每一个episode(片段)e,类c的嵌入原型p_c(即support set的均值,这里与原型网络设计一致)。 

【论文阅读一】Adaptive Cross-Modal Few-shot Learning_第3张图片

 

few-shot learning分类的训练是通过在给定的support set来最小化在query set中样本的预测损失。

【论文阅读一】Adaptive Cross-Modal Few-shot Learning_第4张图片

【论文阅读一】Adaptive Cross-Modal Few-shot Learning_第5张图片 训练时和原始的原型网络相似,但是这里距离度量改变了,AM3加入了语义信息,此时d为query point与cross-modal 原型p'_c的距离。上图(右)现实了AM3的work过程;假设query 样本q是属于类别i的,但是在视觉信息上与q最相近的是p_j(a),(b)显示了每个类的语义原型;在加入了语义嵌入时,AM3修改了原型的位置(c);通过更新,离q最近的原型为类i。

算法流程为:

【论文阅读一】Adaptive Cross-Modal Few-shot Learning_第6张图片

 

3、experiments

文章分别在miniImageNet、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上进行实验,结果表明AM3性能表现最好,模型简单且易扩展。实验中发现在ZSL领域中的方法扩展到基于度量的方法(FSL)性能都提升了。其余详细的内容见原文。

 

总结:

看完整片文章,AM3的亮点就是在原型网络的基础上将语义信息与视觉信息相结合,形成一种自适应的模型,即当样本较少时,此时\lambda _c较小,文本信息占主要地位,当\lambda _c较大时,视觉信息占主要地位。

 

 

你可能感兴趣的:(论文学习,few-shot,learning)