ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)
基于视觉语言(图像文本)知识蒸馏的目标检测CLIP模型当成teacher模型,去蒸馏自己的模型,从而达到zero-shot。模型具有检测新类别的能力。baseline方法是一个MaskR-CNN由两阶段组成,一是生成proposal,然后筛选pospoal,第二步是进过分类头为每个pospoal确定目标类别。目标检测目标函数两部分,一部分是分类损失一部分是边界框回归参数(框定位)。文本来自物体的类