Cross Modal Distillation for Supervision Transfer

Abstract

本文关注点是对图片的不同模态,做监督迁移学习。两种不同的模态,一种有大量的标注样本,一种没有。将从标注过样本的模态中学习得到的特征作为监督信号,用于无标注样本模态的特征学习。此方案能够对无标注信息的模态学习到很好的特征,也可以用于只含有少量标注样本的新模态的预训练。文章做了RGB图片(labeled)到depth(unlabeled)和optical flow(unlabeled)图片的监督迁移,实验的结果证实跨模态的监督迁移能带来大幅度的性能提升。

introduction

当前,计算机视觉方面的基本模式是从一个包含有大量标注样本的数据集中学习到generic feature,针对不同的任务再进一步微调。此模式几乎囊括了所有的state-of-art system:如object detection,semantic segmentation, object segmentation和pose estimation。所有上述任务的generic feature的学习均依赖于有大量标注图片的数据集。为此,本文就产生了如下疑问:对于无标注数据的模态中的图片,这一基本模式的相似性是什么?对于这些模态,是否我们也需要相似规模的标注数据来学习generic feature。
为此本文提出了一种迁移方案,将一个模态(labeled)中学习到的特征迁移到另外一个模态(unlabeled)中。此方案需要利用到两个模态中的paired image以及利用从labeled模态中学习到的mid-level特征来监督unlabeled模态的特征学习。文中称此方案为“supervision transfer”。下图即为方案的图示:
这里写图片描述
利用已经从ImageNet dataset训练好的CNN,利用其mid-level特征作为监督信号,监督CNN在depth images上的特征学习。

Supervision Transfer

设定下环境,未标注数据的模态记为U,标注大量样本的模态记为L,对应的数据集分别记Du为Dl和,文中使用CNN来提取特征,这里写图片描述对应着层,图像的特征可记为这里写图片描述。假设我们希望能够从模态U中学习到一个较好的特征,再假设我们已经有了一个设计好的比较合适的模型这里写图片描述,此时任务就成了在不包含标注数据的模态U中学习相应的CNN参数了,需要学习的参数记为这里写图片描述
合并有标注的模态L和未标注的模态U,通过paired image,可以得到在同一个场景下不同模态的图片数据集。训练模态U下的图片特征就是学习特征让其match模态L中paired image的某个中间层特征。文章采用的L2距离来衡量这种match关系。具体的loss见下面的公式:
这里写图片描述
上式中f为L2距离公式,这里写图片描述![这里写图片描述是未标注模态的CNN特征 ,这里写图片描述是标注模态的CNN特征,t是仿射变换,其作用为当两个特征的维度不一致时,将两者变换到同一个维度再做L2衡量。
作者做了大量的实验来表明该方案的有效性,下图为最终的改进效果:
这里写图片描述
其中在RGBD上mAP从46.2%上升到49.1%。最大的变化是单depth图上mAP从34.2%上升到41.7%。

你可能感兴趣的:(深度学习)