多模态常见任务介绍

视觉问答(VQA, Visual Question Answer)

目标:给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题。

例如,图像中发生什么事,人物穿的衣服是什么颜色,图像中有多少架飞机等。

例如,TDIUC(Task Directed Image Understanding Challege) 是一个任务导向的图像理解数据集。作者收集了 VQAv2 等数据集,并进一步划分为 12 个子任务

多模态常见任务介绍_第1张图片

 图像描述(Image Captioning)

目标:给定一个图像,用自然语言描述图像的内容。

多模态常见任务介绍_第2张图片

视觉定位(Visual Grounding) 

目标:给定一个图像以及相应的自然语言表述,然后在图像中定位文本表述对应的物体或区域。

Grounded Captioning

目标:给定一个图像,用自然语言描述图像的内容,并定位所有提到的实体的位置或区域。可以看做是 Image Captioning + Phrase Localization 的组合。

如下图 Fig.1 所示为一个 Grounded Captioning 示例(来自 Flickr30K),可以看出,即输出了描述,又输出了对应实体的位置

多模态常见任务介绍_第3张图片

你可能感兴趣的:(多模态,大模型,人工智能,深度学习,语言模型)