**本文内容仅代表个人理解,如有错误,欢迎指正**
- 目前,人们基本上都采用基于深度学习的方法来解决Visual grounding任务。不论是全监督学习还是弱监督学习,都十分依赖人为标注的数据集,而人工标注不仅昂贵,还十分费时。因此,本篇论文的目标是减少模型对于人工标注数据的依赖。
- 简单阐述Visual grounding任务背景下的全监督学习与弱监督学习。
- 全监督学习如图一(a)所示,给定Image、Query以及Image中相对应的Bounding box进行训练。
- 弱监督学习如图一(b)所示,仅给定Image、Query进行学习,没有给出图像中相对应的位置。
图一
- 个人觉得本篇论文最大的亮点就是其通过无监督的方法构建有监督的学习,但无监督的方法所提供的信息/标签到底可不可靠,另说。主要思想如图二所示,在训练的时候,给定一张没有label的Image,通过Pre-trained detector得到object proposals;通过Pseudo-Query Generation Module得到Object Proposals的Pseudo queries。此时,等同于构建了一个有监督的数据集,即{Object proposal, Pseudo query}。利用这个构建得来的数据集训练Visual Language Model。然后在测试的时候,直接用Visual Language Model进行预测。
图二
- Pseudo-Q主要由三部分组成 1) Pseudo-Query Generation Module 2) Query prompt module 3) Visual-Language model
- Bascially, 给定一张没有标签的Image,通过预训练的Detector可以得到proposals(类似于两阶段的Visual grounding方法,通过Pre-trained Faster RCNN得到Proposals)。然后将proposals输入至Pseudo-Query Generation Module中,为每一个proposal自动生成Nouns, attributes and relationships.,并通过这些元素生成伪query。再将伪query输入Query Prompt Module中,得到最终的Query。相当于,通过这种无监督的方式,构造数据集,进行有监督的训练。
- 为了更准确地框选出Refered object,在生成Pseudo-Query时重点关注三个元素 1. Nouns(主体) 2. Attributes 3. Relationships
1. 采用off-the-shelf detector得到object proposals,并依据detection confidence选出top-N的objects(能够得到主体)。
2. 采用off-the-shelf attribute classifier得到attribute信息,受限于模型,基本上只取一个属性。
3. 在Relationships方面,基本上考虑spatial relationship,主要分为三个方向 1. Horizontal(left, middle and right) 2. Vertical(top and bottom) 3. depth(front and behind)。
*note: "Each previously generated object proposal is represented by a set of coordinates which naturally embrace spatial information." 换句话说,我们可以利用这边的coordinate信息,得到object的spatial relationship。
- 针对Horizontal和Vertical spatial relationship,基本上模型只需在两个维度上对比object的中心坐标即可。
- 针对depth spatial information,主要利用成像近大远小的现象,通过计算不同object所占image的比例得到前后关系。
得到Nons、Attributes以及Relationships后,根据Pseudo Query Template生成Pseudo Query。
* Prompt是研究者们为下游任务设计出来的一种输入形式或模板,其能够让预训练模型“回忆”起自己在预训练时“学习”到的东西,从而得到更好的表现。
- 在本论文中的Prompt为 1. “find the region that corresponds to the description {pseudo-query}” 2. "which region does the test {pseudo-query} describe?"
- Visual-Language model主要由三部分组成(如图三所示) 1. Visual encoder 2. Language encoder 3. Cross-modality fusion module.
1. Visual encoder: 由CNN backbone(ResNet-50 pre-trained on ImageNet)和Transformer-based Network(The encoder part of DETR network)组成。
2. Language encoder: 由Token embedding layer和BERT(with 12 transformer layers)组成。
3. Cross-modality fusion module: 主要提出Multi-level cross-modality attention(ML-CMA),通过计算不同层级下图像特征和文本特征的cross-modality self-attention,并利用这个attention更新图像特征和文本特征,然后将图像特征和文本特征进行拼接。(简单来说就是,在每一个层级当中,都去计算图像特征和文本特征的attention,并对图像特征和文本特征进行更新,最后将图像特征和文本特征拼接在一起,记作融合特征A)因此,就有不同层级的融合特征A。此时,通过全连接网络将不同层级的融合特征A映射到同一个维度,并把不同层级的融合特征A进行拼接,得到最终的融合特征B,最后将B输入Regression Head中进行预测。
图三
- 从Table 1中可以看出,同样是无监督的学习,在没有任何标注数据的情况下,本文的实验表现相较于21年无监督的模型有了巨大的提升,本文的实验表现甚至高于弱监督的部分模型。
图四
- 图四主要是为了证明本文的方法最大限度能够减少多少的人工标注(说起来有点不像人话了)。可以从图四中看到,在Pseudo-samples的比例占训练比例30%情况下,并不损伤模型表现,因此得出结论:本文所提出的方法可以在不影响模型效果的情况下减少大约30%的人工标注。
- 本文还针对Pseudo-Query Generation Module做了一些对比实验:
- 个人认为Object Number以及Pseudo-query Number的增加类似于扩大了训练数据集的数量,在一定程度上能够增强模型表现,但并不是每一个生成的object-query都是具有correct supervision signal,所以数量过多的话也有可能降低模型表现。
- 以下是正常的消融实验,不过多解释。可以从Table 3中看出Relationship(即位置关系)在Visual grounding任务中的重要性。
- 以及一些可视化的实验结果图: