Zero-Shot Image Classification总结

1 任务说明

        现有的benchmark通过ImageNet-1k上预训练的Res101从已知类的训练集提取feature或者feature map,然后对每一个类引入一个语义标签,可能是属性标签(attribute label)、或者描述标签(sentence embedding)等。对于某个类的属性标签(向量形式),每个维度表示一种属性,该维度下的取值表示这个属性在该类别中存在的可能性,值得注意的是benchmark里的类属性标签都是经过L2 normalization的,有一些方法进一步借助GloVE这种Word Embedding的方法扩展了属性标签,即将每个维度的属性从一个值扩展成了向量,方法是将对应属性的名称里的单词都输入到GloVE中然后取平均值作为该属性的w2v,在这里我们称之为属性向量。

        有了以上数据,我们的任务就是利用语义标签的可泛化性质,在用于训练的图片只有部分已知类别的情况下,能够在测试阶段识别出位置类别。其中Conventional ZSL只需要在测试阶段识别未知类,Generalized ZSL在测试阶段既要能认出未知类,还需要正确识别已知类。Inductive ZSL表示训练时图片数据和语义标签只有已知类的,而Transductive ZSL则表示训练时存在未知类的信息,比如未知类的语义标签或者未知类的未标记图片。出于真正的可泛化来考量,我更倾向于绝对的Inductive ZSL的研究,也就是训练阶段只有已知类的带标记图片和语义标签,而没有任何关于已知类的信息,这种情况下才能够真正地学习一个模型,然后任意地泛化到其他未知类中,更贴合实际。

2 任务抽象

        联系小样本问题,可以将零样本问题抽象成one-shot的小样本问题,Base Set为已知类图片集,Support Set是未知类的语义标签,Query则是未知类的图片,因此我们需要解决的问题就是找到一个合适的空间能够衡量语义标签和图片之间的相似度。典型的基于这种抽象形式解决零样本图像分类问题的方法是判别模型。

        联系全监督图像分类,需要依赖大量的训练数据来得到分类器,因此有方法联系Conditional的生成模型,将语义标签作为条件,生成所缺少的未知类图像数据,然后在补全的训练集上学习分类器解决零样本问题。典型的基于这种抽象形式解决零样本图像分类问题的方法是生成模型。

3 框架概览

3.1 判别模型

        将已知类的集合记为S,未知类的集合记为U,这类方法的本质都是通过网络拟合条件分布,也就是以图片为输入时预测语义标签,而根据a所在的空间可以是直接在语义标签所在空间也可以是将图片和语义标签都映射到一个公共空间上。由于语义标签和one-hot标签不一样,是具有可泛化性的,本身就衡量着不同类别之间的联系而不是正交地将各个类别区分开来,所以预测阶段引入未知类的语义标签之后,是能够一定程度识别出未知类的。

        判别模型的优势在于容易学习,它约束基于训练数据对标签的预测结果,所以能在见过的数据上学到比较好的决策边界,劣势则在于用这种方式解决泛化到未知类别的零样本图像识别问题时,它并没有反映出源数据的全貌,只是拟合了见过的数据,即便使用的语义标签带有可泛化的性质,判别模型依然会过拟合到训练数据也就是已知类上,因此这类方法普遍已知类正确率显著高于未知类。

3.2 生成模型

        这类方法的本质是通过网络估计联合分布,然后在这个联合分布中固定a(Y)的边缘分布中采样获取估计得到的未知类样本,之后在补全的数据集上训练分类器(使用one-hot label的判别模型),也即将零样本问题转化成了全监督问题。

        生成模型的优势在于它在学习过程中不强调预测结果或者说分类边界,只关注同类数据的相似度,因此能一定程度反应源数据的全貌。而后再基于联合分布得到的后验分布进行预测时就不容易因为过拟合偏置到已知类,但相应地劣势也在于它的学习是困难的。

你可能感兴趣的:(Zero-Shot Image Classification总结)