这个很难直接翻译,直译的话就是 “短语接地”,所以到底指的是啥?
其实最好不要直接翻译,要从任务中理解,这个任务就指的是给定一个文本输入,如 “一个穿绿衣服的人”,从图像中找到这个文本描述指向的目标并框出来
所以,phrase grounding 就是将自然语言中提到的有效目标和图像中特定区域对应起来的任务,注意是全部提到的目标,如下图所示
现在也有方法将目标检测构建成了 phrase grounding 任务了(GLIP),将 prompt 改成如下格式即可:
1、Flickr30k Entities
论文:Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models
官网下载链接:http://shannon.cs.illinois.edu/DenotationGraph/data/index.html
github 链接:https://github.com/BryanPlummer/flickr30k_entities
标注文件在 github 链接中下载!!!
这个任务是框出文本中提到的一个特定目标
如输入文本为 “穿红短袖且背球拍的人”,则输出就会框出一个目标 person
Refcoco 论文:Modeling Context in Referring Expressions
标注文件下载:https://github.com/lichengunc/refer
RefCOCO, RefCOCO+, RefCOCOg:
下图是论文中的一个图,每个图的 caption 描述在图片正下方,绿色是根据下面的 caption 标注的 gt,蓝色是预测正确的框,红色是预测错误的框
该任务是输入问题和图像,输出模型的回答
如输入 “左侧女孩手里拿的是什么”,模型会回答 “雨伞”
该任务是给图像生成描述,一般输入 prompt 为:“ a picture of {}”
模型的回答为:girls holding umbrellas.