零样本学习(zero-shot learning, ZSL)详见郑哲东在知乎中的回答。它的目标是通过训练阶段从已见类别中学习到的知识,来识别未见类别。
摘要:零样本学习(ZSL)的目标是通过学习图像表示和语义表示之间的嵌入空间来识别未见图像类别。多年来,在现有的研究成果中,中心任务都是学习对齐视觉空间和语义空间的合适映射矩阵,而忽略了学习ZSL 的鉴别性表示表征的重要性。本工作中,我们回顾了已有方法,证明了为 ZSL的视觉实例和语义实例学习鉴别性表示的必要性。我们提出了一种端到端的网络,能够做到:1)通过放大网络自动发现鉴别性区域;2)在引入用户定义属性和隐含属性的增强空间中学习鉴别性语义表示。我们提出的方法在两个很有挑战性的ZSL 数据集上进行了大量测试,实验结果表明我们提出的方法的表现显著优于之前最佳的方法。
已有方案的缺点(drawbacks):
1,特征对ZSL任务表示性不足: 在映射前,抽取图像的特征,传统的用预训练模型等方法仍不是针对ZSL特定抽取特征的最优解。
2,用户定义属性不全面: 现有的都是学习用户定义属性,而忽略了隐含表示。
3,分类训练不能充分挖掘潜力: 低层次信息和空间是分离训练的,没有大一统的框架。
本文贡献:
Notation:
FNet (The Image Feature Network) :提取图像特征;
ZNet(The Zoom Network): 定位最具判别性的区域并将其放大;
ENet(The Embedding Network): 将图像特征映射到另一个空间。
问题
1. ZNet是如何定位判别性区域的?
循环注意力机制
下面我们先介绍各个子网络
FNet的目标就是提取图像特征。文章选择了已有的VGG19/GoogleNet。
已有研究表明对目标的区域进行学习,有利于图像级的目标分类。受此启发,我们假设图像中存在判别性区域有助于ZSL。
ZNet的目标是定位到能够增强我们提取的特征的辨识度的区域,这个区域同时也要与某一个我们已经定义好了的属性对应。
如图2所示,再将ZNet的输出输入到另一个FNet(第一个FNet的拷贝)
ENet的目的是学习一个能够将视觉和语义信息关联起来的嵌入空间。
作者提出了一个兼容性得分。
(5) s = < W T ϕ ( x ) , a y > s = < W^T \phi(x), a^y > \tag{5} s=<WTϕ(x),ay>(5)
其中, ϕ ( x ) \phi(x) ϕ(x)是FNet输出的 d d d维的图像表示, a y a^y ay是注释属性向量。
兼容性得分的物理意义是什么?
答:The compatibility score measures the similarity between an image and the attribute annotations of classes. It is similar to the classification score in traditional object recognition task.
衡量一张图像在属性空间的投影和类别的定义/隐含属性之间的相似性(兼容性)。
Enet将图像特征映射到 2 k 2k 2k 维度的空间中。其中, 1 k 1k 1k 维对应于用户定义属性(UA),并用softmax loss;另 1 k 1k 1k 维则是对应隐含属性,为了使这些特征具有判别性,作者使用了triplet loss。
为什么UA是softmax loss,而LA是triplet loss?
答:UA是已见类的有属性/标签,隐含属性没有实际的属性。
如何学习2k维属性的?
答:学习一个W,通过调整网络中的参数。
首先,已知UA空间中源类的属性表示和目标类的属性表示,求得关系 β c u \beta_{c}^{u} βcu;
然后,学到LA空间中源类的属性表示,应用关系 β c u \beta_{c}^{u} βcu,得到目标类在LA空间中的属性表示。
不是学源类的用户属性和隐含属性的关系,然后应用到目标类。
而是学已知属性空间中源类和目标类的关系,然后应用到隐含属性空间中的源类表示,得到目标类的隐含表示。
1.论文地址
补充材料
2.论文笔记1 - 知乎
3.论文笔记2 - RexKing6’s Note
4.论文笔记3 - 雪花新闻
5.什么是 One/zero-shot learning?
1. 隐含特征的“特征”指的是图像/视觉特征吗?
这里的特征,我理解包含两方面,一个是隐含的视觉特征,一个是隐含的属性特征。
2. [4.1] Fnet对性能的提升有多大?
表1,自对比实验,AwA(CUB)数据集上有4%(9%)的提升。
3. [4.2] ZNet是如何使得到的区域,既有判别性,又有语义信息?
直观想法:目标区域期望包含一些背景信息来增强属性嵌入。
具体做法:调整放大网络,只放大1次或者2次。
其实判别性,来自注意力机制;语义来自于视觉语义映射。
4. [4.2] 为什么使用两个堆叠的全连接层?全连接是线性的,如何实现非线性?
有激活函数,所以是非线性
5. [4.2] 逐元素乘法的作用?
放大网络里的技巧。
6. [Table 1] VGG比GoogLeNet好?
7. [Appendices] A U → T A_{U \rightarrow T} AU→T 和 A S → T A_{S \rightarrow T} AS→T 是怎么计算的?
原文: A U → T A_{U \rightarrow T} AU→T indicates the accuracies of classifying test images from unseen classes into the joint label space
计算细节?
8. 实验中,cZSL设定下 M C A MCA MCA在50%左右,为什么gZSL中的 M C A t MCA_t MCAt只有不到20%?