ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文出自香港大学的sibei,二作是中山大学李冠斌老师
下载链接

动机

Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合;②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语上下文,短语之间没有明确的语言关系,如下图(b)。
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记_第1张图片

贡献

  • 提出关系传递模块(Relational Propagation Module,RPM),可以基于linguistic relation在phrases pair间传递信息;
  • 提出一种基于语言结构引导的网络,在语言解析图的指导下,迭代地给名词短语传递跨模态信息。
  • 在Flickr30K Entities数据集上测试,超过了SOTA。

方法

模型的整体框架如下图所示,处理过程共分为五个步骤,下面逐一介绍。
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记_第2张图片
①. 对输入图片进行编码,将visual feature V V V和spatial coordinates P P P融合,得到spatial-aware feature F F F
②. 对输入文本进行解析,得到linguistic graph G G G,解析方法使用VL15中的方法。
③. 对于每个结点,基于 F F F和结点对应的短语特征 w n ′ w_{n}^{'} wn,得到多模态特征 M M M和短语增强图 S S S,这里得到的 M M M在不同的迭代轮次中均不改变,作为评价anchor boxes置信度的依据。
④. 使用RPM模块,在边上进行消息传递,得到关系增强图 R R R,再进行结点信息聚集,得到联合强化图 C C C
⑤. 使用 M M M C C C选择出最优的anchor box,回归offset即可。

实验

在Flickr30K Entities上的实验结果:
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记_第3张图片
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记_第4张图片

消融实验:
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记_第5张图片

实验结果:
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记_第6张图片

你可能感兴趣的:(#,visual,grounding,(RE),ECCV2020,视觉定位,短语定位,phrasegrounding)