研究方向初了解(自学)

模态:

模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。

有些数据的存在形式不同,但都是描述同一事物或事件的。

跨模态:

跨模态的检测是指根据给定文本检测出图像中的物体

跨模态检测有两个更加细化的具体任务

1. 视觉定位(Visual Grounding):给定一段目标物体的描述,例如什么颜色,什么位置或者在做什么动作,然后检测出图像中的物体

研究方向初了解(自学)_第1张图片

特点:类别有限,能接受自由形式(Free-form)的文本

2. 零样本检测(Zero-Shot Object Detection)。顾名思义,现在有一个新颖的类别,在一张训练图像都没有的情况下,能够在图像中检测出对应的物体:

研究方向初了解(自学)_第2张图片

特点:类别无限,不接受自由形式的文本,只接受一个定义了新颖类别的词作为文本。因为对于新颖类别,一张训练图像都没有,只有一个词,因此只能从文本模态来入手。

(下面的看不懂了,只有学习之后,再来看了跨模态是什么 - 搜索结果 - 知乎)

多模态:

多模态:对不止一种形式的数据进行检索、组合模式、图像可以是图片,文字等组成。

跨模态:“跨”,一种模态到另一种,以文索图或以图索文。

你可能感兴趣的:(计算机视觉,深度学习,机器学习)