论文阅读笔记《Baby Steps Towards Few-Shot Learning with Multiple Semantics》

核心思想

  本文提出一种结合多种语义信息的小样本学习算法。首先作者提到人类的幼儿在学习新的事物时,通常是利用多种语义信息综合学习的,比如你给他看一只狗,他不仅接收到视觉和简单的语义标签信息,你还会给他描述这只狗有金色的毛发,它还会汪汪叫。如此一来幼儿就可接收到多种语义信息,帮助他学习识别狗。正是出于这种思想,作者提出利用多种更为丰富的语义信息来帮助模型实现小样本学习,网络的结构如下图所示。
论文阅读笔记《Baby Steps Towards Few-Shot Learning with Multiple Semantics》_第1张图片
  整个算法还是基于原型网络Prototypical Network的思想,首先对于支持集图像,通过卷积神经网络进行特征提取,并根据特征向量计算得到视觉原型 V V V。然后对于多种语义信息,如语义标签,图像描述和物体属性,使用对应的嵌入式网络进行特征提取,如使用GloVe处理标签,使用BERT处理图像描述。接着利用一个MLP将特征信息转化为对应的语义原型 S i S_i Si。最后将语义原型 S i S_i Si与视觉原型 V V V,按照一定的权重进行融合,并将融合后的原型 P i P_i Pi,进一步与下一种语义原型 S i + 1 S_{i+1} Si+1进行融合,最终得到融合原型 P P P。将融合原型 P P P与查询集图像的视觉特征 Q Q Q进行相似性度量,并预测类别标签。
  在上述融合过程中,权重 α i \alpha_i αi是利用一个语义注意力模块计算得到的,他的输入是视觉原型 V V V和所有的语义原型 S i , i = 1 , . . . , k S_i, i=1,...,k Si,i=1,...,k,输出就是对应的权重 α i \alpha_i αi。融合的计算过程如下
论文阅读笔记《Baby Steps Towards Few-Shot Learning with Multiple Semantics》_第2张图片
注意式中的连乘符号,因为融合的过程是串联的,因此视觉原型 V V V要连续与权重系数 α i \alpha_i αi相乘,语义原型也是同理。

实现过程

网络结构

  视觉特征提取网络部分采用DenseNet-121,语义特征提取网络部分采用两层的MLP,语义注意力模块也采用两层MLP。

损失函数

  采用交叉熵损失函数

训练策略

  不仅对最后的输出结果计算损失,而且对中间每次融合得到的原型 P r P_r Pr都预测结果,并计算损失,形成深度监督。
论文阅读笔记《Baby Steps Towards Few-Shot Learning with Multiple Semantics》_第3张图片

创新点

  • 利用多种语义信息来丰富小样本学习的信息来源,更加接近人类学习新事物的状况
  • 使用串联的多模型融合方案,并采用深度监督的形式对中间结果进行监督

算法评价

  本文采用与多种语义信息相结合的方式实现小样本学习任务,但是如何获得准确的语义信息将是限制本文应用的一个重要因素。如果支持集中不包含准确的语义描述或者其他的信息,那么需要人工标注或者借助语义领域的一些方法进行自动标注,那么这样则会引入新的噪声。另一方面本文在进行信息融合时,是采用的串联方式,这种方式无疑会导致早期的输入影响不断降低,如视觉原型连乘多个权重系数后,其对结果的影响可能会大大降低,这样做是否合理呢?

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

你可能感兴趣的:(深度学习,#,小样本学习)