ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)

基于视觉语言(图像文本)知识蒸馏的目标检测

CLIP模型当成teacher模型,去蒸馏自己的模型,从而达到zero-shot。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第1张图片

模型具有检测新类别的能力。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第2张图片

baseline方法是一个Mask R-CNN由两阶段组成,一是生成proposal,然后筛选pospoal,第二步是进过分类头为每个pospoal确定目标类别。目标检测目标函数两部分,一部分是分类损失一部分是边界框回归参数(框定位)。文本来自物体的类别,是有监督的学习。

ViLD-Text模型将图像特征和文本特征联系到一起,但是open vocabulary(zero-shot)的能力还有待加强。文本端模型参数锁住。然后文本特征与图像特征做点乘,得到相似度就可以计算交叉熵,进而训练模型。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第3张图片

图像region embedding和背景以及文本特征做点乘计算相似度。这里ViLD-Text只是把图像特征和文本特征做了一下关联,这样就可以做zero-shot了。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第4张图片

ViLD-image右侧这里将M个proposal(这里M个相对于ViLD-Text中N个proposals更少了,M个是从N个中通过RPN预抽取出来的,这样做可以加速计算)经过裁剪和resize后送进CLIP中预训练好的图像编码器,得到M个image embedding(图像特征)。上述过程可以理解为将筛选后的每个proposal看做一个图像并提取特征。这里使用CLIP提取的proposal的特征看做伪标签,也就是groun true。右侧也就是知识蒸馏中的teacher网络。

另一边,将M个proposal送进目标检测的框架,希望这边抽出的特征与teacher网络(CLIP图像编码器抽取的特征)那边的特征尽可能一致。这样一来,监督信号就是CLIP中图像编码器抽取的特征,不再是人工标注的特征。因此,就不再受基础类的限制了,proposal既可以来自基础类Bade Category,也可以来自New Category。监督信号是CLIP里来的,而不是人工标注来的。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第5张图片

ViLD-image与ViLD-text结合起来即为ViLD。右侧为teacher网络,只有训练的时候抽取伪标签用,测试的时候用不到。左侧将N+M个proposal同时输入进目标检测框架,然后分开,M一端抽取的特征与右侧teacher网络的伪标签计算L1-loss。N一端用于抽取每个proposal的特征并与文本和背景配对计算交叉熵损失。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第6张图片

模型总览如上图,训练过程:一张图像经过backbone和RPN抽取proposal,然后每个proposal通过conv抽取region embedding。同时,经过裁剪和resize的proposal经过CLIP预训练好的图像编码器得到image embedding作为伪标签。然后region embedding与image embedding计算L1-loss。与此同时,文本信息经过文本编码器得到text embedding,region embedding与text embedding点乘计算相似度进一步计算交叉熵损失来匹配图像文本对。

测试过程:region embedding与text embedding(可以有新类)去匹配。

ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)_第7张图片

这个数据集有很多特别小或者不常见的物体,因此对这些物体标注也很少。APr就是对这种特别小的物体的检测结果。可以看出ViLD表现还是很好的,已经超过了监督学习+RFS的方法(这里这些小物体本来标注就很少,即使是基督的方式,模型看到的也不多,甚至可能产生误导)。

论文下载:http://arxiv.org/abs/2104.13921

参考:CLIP 改进工作串讲(上)【论文精读】_哔哩哔哩_bilibili

你可能感兴趣的:(计算机视觉,目标检测,计算机视觉,深度学习)