An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下载链接
本文面向natural language object retrieval任务,已有方法分为两阶段,先提取proposals,再生成每个proposal的score并排序。这样生成的proposals是冗余的,且和referred object不相关。具体来说,已有方法(proposal based)有以下缺点:
A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下载链接
Generation和Comprehension是两个独立逆任务,现有的方法都是单独针对某个任务进行。本文将两个逆任务联合,并添加强化学习策略,达到了更优的实验结果。
Speaker负责生成文本描述,Listener负责理解文本描述,Reinforcer负责控制采样,使Speaker生成的expressions具有多样性。在训练完成后,Speaker和Listener都可以单独用于grounding任务。对于Speaker,使用每个region生成expression,取与query相似度最高的expression对应的region作为结果。对于Listener,直接计算每个region和query的相似度,选score最大的即可。
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下载链接
传统的监督框架,依赖于带有边框或像素级别标注的数据集,而随着领域朝着解决更大规模问题的方向发展,获取大量的这类标注数据成为了瓶颈。本文应对以上问题,提出了弱监督的视觉定位方法,可以基于图像等级的标注(没有region-phrase标注)进行训练,生成像素级别的grounding结果。
本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss,分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配,后者用于匹配image-phrase pairs。
An Attention-based Regression Model for Grounding Textual Phrases in Images
下载链接
现有方法基于proposals,模型的最终性能取决于生成proposals的方法,这类方法也带来了额外的计算成本。本文将grounding视为一个回归问题,提出了可以直接识别短语对应区域的方法,省去了生成proposals带来的计算量。作者总结了proposal based方法的缺点:
Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下载链接
现有方法为三阶段,①生成proposals;②对两种模态进行encode;③基于matching score进行ranking。经过作者统计,这类方法第一步会耗费较多时间,因此并不适用于有实时需求的场景。
Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下载链接
现有方法没有完全挖掘多模态表示和映射空间,本文提出multi-level多模态注意力机制,可以在不同的语义等级下,生成word-level或sentence-level的注意力图。
A Fast and Accurate One-Stage Approach to Visual Grounding
下载链接
两阶段方法依赖于proposals的质量,如果在第一阶段生成的proposals没有很好的cover ground truth,那么二阶段是没有意义的。且所有的proposals只有1-2个是正确的,浪费了很多计算资源处理错误的proposals。
针对上述问题,本文提出在YOLOv3中嵌入文本查询信息,在准确性和速度上都取得了不错的结果。
Zero-Shot Grounding of Objects from Natural Language Queries
参考链接
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下载链接
在VQA问题中,对生成answer的同时,得到relevant regions是很有必要的,这在一定程度上可以验证模型的可解释性。已有的方法通过注意力机制,高亮和answer相关的区域,注意力机制的使用方法可以分为了两类:①在模型的中间部分使用注意力,不需要监督信息,依靠模型的最终输出进行训练;②在模型的输出部分使用注意力,需要使用额外监督信息。针对第①类方法,模型学到的注意力往往提供不了可解释信息;针对第②类方法,标注信息较为昂贵,且标注人员和我们的关注点可能不同,会带来歧义。
本文利用Visual Genome数据集中的region descriptions和object annotations自动构建可用于注意力监督的attention map。
本文主要的创新点在Attention Supervision Module,即联合visual grounding作为辅助。
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下载链接
现有方法由于采用两阶段框架(proposal generation、proposal ranking),在不降低精度的同时,无法达到实时推理。本文从以上问题出发,提出RCCF方法,可以在单GPU上达到40FPS,约为two-stage方法的两倍。
作者将相关滤波融入多模态任务中,让我有一种这是tracking方法的感觉。
Improving One-stage Visual Grounding by Recursive Sub-query Construction
下载链接
现有的visual grounding方法可以分为两类:一阶段、两阶段。本文面向一阶段方法,提升现有方法处理长(long)、复杂(complex)query的能力。本质是:本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法(两阶段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一阶段模型)。
下图中,子查询学习器负责学习Query中每个word的注意力,子查询调制器负责基于子查询学习器得到的注意力,对text-conditional visual feature进行refine,增强referred object的特征,并压制其他object的特征。本文方法的详细介绍参见这篇博客
Linguistic Structure Guided Context Modeling for Referring Image Segmentation
参考链接
Propagating Over Phrase Relations for One-Stage Visual Grounding
参考链接
下载链接