论文:Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers
代码:暂无
出处:CVPR2023
贡献:
近期,open-vocabulary detection task (OVD) 得到了很多关注,其被提出是为了解决传统目标检测的限制性,开放词汇目标检测最大的特点是将类别看做 text embedding,而不是离散的 id,所以,开放词汇目标检测能够更灵活的预测在训练过程中没见过的类别。
现有的很多方法是使用大量的 image-text pairs 来进行预训练,为模型引入丰富的语义信息,很多方法用的是 CNN,但随着对图像理解的更强的需求和多模态任务的出现,使用 vision transformer 来实现也很重要
我们已知现有的方法很多都是使用预训练好的 vision-language model,然后再微调一下来解决 image-level 预训练和 object-level fine-tuning 之间的 gap
本文提出了 RO-ViT,将预训练好的 vision transformer 迁移到 region-aware 上来实现开放词汇的目标检测
本文和前面的方法最大的不同在于,本文作者探索了如何更好的使用 vision transformer 来预训练 VLMs,更好的适用于开放词汇检测
然后使用预训练的权重来初始化检测器的 backbone,将 backbone 冻住后训练检测器的 neck 和 head 等特殊部件
1、contrastive image-text pretraining
一般的对比学习都是 two-tower 的结构,由 image encoder 和 text encoder 构成
对比学习的目标是在 embedding space 中,将一对儿的 image-text 距离拉近,非一对儿的 image-text 距离拉远
一般使用的 loss 是 softmax CE loss
2、开放词汇目标检测
使用基础类别训练,但是测试的时候需要同时能够检测基础类别和新类别
一般的方法就是将原本的固定尺寸的全连接分类器使用 text embedding 来替换,因为 text embedding 来自于预训练的 text encoder 中,所以预训练中的开放语义知识能很好的保留
作者对于 background 类别使用 “background” 词汇来作为类别词汇
训练过程中,作者会给每个 region r r r 计算对应的 detection score p i p_i pi,计算方法是计算 RoI-Align feature(region embedding)和基础类别的 text embedding 的 cosine similarity,然后使用 softmax 规范化
在测试过程中,text embedding 扩展到了基础类别和新类别的 embedding,并且加上了 background,在 ViT backbone的输出 feature map 上使用 RoI-Align 来获得region i i i 的 VLM embedding,并且计算这个区域 embedding 和 text embedding 的 cosine similarity,得到 region score z i z_i zi,detection score 计算如下, α , β ∈ [ 0 , 1 ] \alpha, \beta \in [0,1] α,β∈[0,1] 用了控制基础类别和新类别的 weights
作者使用预训练好的 ViT 模型来初始化 detector 的 backbone
现有的 vision-language model 基本上都是使用整张图和 text 来进行匹配
然而,这种预训练没有考虑到 region-level 特征和 text token 之间的关系,而这种关系又对开发词汇目标检测很重要
所以,作者提出了一种新的 Cropped Positional Embedding(CPE)的方法来解决 image 和 region 之间的 gap,并且发现使用 focal loss 从难样本中挖掘很有益处
CPE:
为了解决这个 gap,作者提出了 CPE,如图 2 所示:
CPE 可视化:
Focal loss:
作者认为更细致的控制 hard 样本的权重比使用 CE loss 更好
假设:
v i v_i vi 和 l i l_i li 是归一化后的 image embedding 和 text embedding
Image-to-text(I2T)对比学习 loss 分别设置为 CE loss 和 Focal loss 来对比,公式如下
Text-to-image(T2I)对比学习 loss 和 I2T 的是对称的
总 loss 是两个 loss 之和
虽然 backbone 可以使用预训练权重来初始化,但检测器的 neck 和 head 还是全新的
现有的方法一般不会对新类或未标注的类进行 proposal generation
但本文提出了一个新的生成 proposal 的方法,使用 localization quality-based objectness(如 centerness 等)来衡量 proposal 的得分,而不是使用 object-or-not 的二分类得分来衡量
OVD score: S i O V D = o i δ . s i O V D S_i^{OVD}=o_i^{\delta} .s_i^{OVD} SiOVD=oiδ.siOVD, o i δ o_i^{\delta} oiδ 是预测的 objectness score
预训练:
下游检测的细节:
LVIS:
COCO:
zero-shot image-text retrieval on coco and Flickr30k