上一篇:One-Stage Visual Grounding 2017-2018年论文粗读
禁止以任何形式转载文章!
论文地址:http://openaccess.thecvf.com/content_ICCV_2019.
代码:https://github.com/TheShadow29/zsgnet-pytorch.
已有的定位方法在测试时,只能对训练集中出现过的单词或短语进行定位。本文提出一个新的任务——zero-shot grounding,致力于对训练集中没有出现的单词或短语进行定位。但是,由于检测器能够识别的种类受限于训练数据,两阶段的定位方法不适用于此任务。综上,本文提出了一阶段的zero-shot grounding方法(多模态特征融合+SSD)。作者还引入了新的数据集(从Flickr30k Entities和Visual Genome中进行抽样),这些数据集支持对作者假设的四种条件进行评估。
系统的输入是一个图像查询对。利用深度网络生成不同分辨率的K幅图像特征图。锚点生成器使用图像大小来产生不同尺度和分辨率的锚点。我们将锚点中心附加在每个特征图的每个单元格上。查询短语使用双向LSTM (Bi-LSTM)进行编码,并将获得的语言特征附加在通道维上每个特征映射的每个单元位置上。将得到的多模态特征映射输入到全卷积网络(FCN)块中,分别使用focal-loss和SmoothL1-loss训练输出预测分数和回归参数。
zero-shot grounding的四种情况:
数据集:
Flickr30k Entities:每个图像包含5个句子,每个句子包含3.6个查询,并且包含被引用对象及其类别的边框信息。一共有30K张图片。
Visual Genome (VG):每个图像都有一个场景图。场景图中的对象用边框、区域描述和同义词集来标注。
ReferIt(RefClef):是Imageclef的子集,包含20k图像和85k查询短语。
论文地址:https://openaccess.thecvf.com/content_ICCV_2019.
论文解读 点这里
论文地址:https://openaccess.thecvf.com/content_CVPR_2020.
现有方法由于采用两阶段框架(proposal generation、proposal ranking),在不降低精度的同时,无法达到实时推理。本文从以上问题出发,提出RCCF方法,可以在单GPU上达到40FPS,约为两阶段方法的两倍。为了不提取候选框,作者将问题理解为一个跨模态模板匹配问题。在RCCF中,首先利用语言引导的滤波内核对图像特征进行相关滤波,从而定位表达式所描述的目标中心点。然后,应用一个回归模块来回归对象的大小和中心偏移量。相关热图中的峰值、回归的对象大小和中心点偏移共同形成目标包围框。
RCCF框架概述:
a)指涉文字和图像编码器:使用Bi-LSTM和DLA结构进行表达式和视觉特征提取。
b) cross -modal Correlation Filtering:将提取的语言特征映射到三个不同的filter kernel中。然后用相应的核函数对三层图像特征进行相关滤波,分别生成三幅相关映射。最后,我们通过像素平均融合三个相关图。中心点对应于熔合热图的峰值。
c)大小和偏移量回归:二维的对象大小和中心点的局部偏移量仅根据最后一级图像特征进行回归。结合估计的中心点、目标大小和局部偏移量,得到目标目标区域。
论文地址:https://arxiv.org/pdf/2008.01059.pdf.
这篇文章同样来自于腾讯AI实验室,在19年的One-Stage VG基础上进行了改进和提升,加入了递归子查询模块Recursive Sub-query Construction(ReSC 代码),解决当前对长而复杂的查询进行定位的弱点。
现有的单阶段方法将整个查询编码为单个嵌入向量,例如直接从BERT中采用第一个令牌的嵌入或从LSTM中聚合隐藏状态。然后将单个向量在所有具有视觉特征的空间位置进行连接,以获得用于定位预测的融合特征。将整个语言查询建模为单个嵌入向量往往会增加表示的模糊性,例如只关注某些单词,而忽略其他重要的单词。这样的问题可能会导致引用信息的丢失,特别是在那些长而复杂的查询上。
虽然,两阶段已经出现了一些解决此弱点的方法,例如:MattNet将查询内容解析为主题、位置和关系短语,并将每个短语与相关的对象区域链接起来进行匹配得分计算。NMTREE使用依赖树解析器解析查询,并将每个树节点与一个可视区域链接起来。DGA以文本自我注意来解析查询,并通过动态图形注意将文本与区域连接起来。但是两阶段方法不能直接应用于单阶段框架。
因此,为了在统一的单阶段框架中解决查询建模问题,作者提出了一种递归的子查询构造框架,该框架可以对图像和查询进行多轮的推理,逐步减少引用歧义。这个方法在ReferItGame, RefCOCO, RefCOCO+, and RefCOCOg,数据集上得到了5到12个百分点的提高,尤其是在长和复杂句子描述查询上的表现。
数据集分析和划分:
RefCOCO有19,994张图片和142,210个对象实例的引用表达式。RefCOCO+有19,992张图片和49,856个对象实例的141,564个引用表达式。RefCOCOg有25,799个图像,95,010个引用表达式,用于49,822个对象实例。
RefCOCO and RefCOCO+:划分为train/ validation/ testA/ testB,“testA”中的图像是多人的,“testB”中的图像包含所有其他对象。
RefCOCOg:分成RefCOCOg-google and RefCOCOg-umd,划分为val-g, val-u, and test-u,RefCOCOg比RefCOCO和RefCOCO+的查询更长,平均查询长度分别为3.61、3.53、8.43。
Flickr30K Entities:有31,783个图像,427K个引用表达。大部分是名词短语。
ReferItGame:有20,000张来自SAIAPR12的图片。
论文地址:https://www.ecva.net/papers/eccv_2020/papers_ECCV.
论文解读 点这里
禁止以任何形式转载文章!!!
上一篇:One-Stage Visual Grounding 2017-2018年论文粗读
参考:One-Stage Visual Grounding论文汇总.