计算机视觉任务及常用数据集

计算机视觉任务及常用数据集_第1张图片

图1 计算机视觉任务

一、图像分类(Image classification)

为图像赋予一个或多个语义标签,见上图1-a。

1、常用数据集

类别 训练数据 测试数据 图片格式
Mnist(分辨率28*28) 10 50000 10000 Gray
Cifar-10(分辨率32*32) 10 50000 10000 RGB
ILSVRC(分辨率几百*几百) 1000 1200000 150000 GGB

2、ILSVRC

大规模图像识别挑战赛,覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error(预测前5个类型,如果含有groundtruth类别,不做惩罚)。

在这里插入图片描述

3、ImageNet与ILSVRC

ImageNet数据集包含21841个类别,14197122张图片;从中挑选1000类的120000张作为训练集。

二、图像检测(Object location)

找到图像的分类及所在的位置,见上图1-b。
问题难点:物体尺寸变化大,位置、角度、姿态不定,另外物体还有多个类别。

1、PASCAL VOC(The PASCAL Visual Object Classification)

目标检测、分割领域有名的数据集,被看成目标检测问题胡基准数据库。2005-2012年,共举办8个不同的挑战赛。含20个类型。
VOC2007含9963张图片,共24640个物体。VOC2012含11540张图片,共27450个物体。

2、MS COCO(Microsoft Common Objects in Context通用物体检测)

目标检测、分割、位置、标签的数据集。COCO数据集共有12个大类,80个小类。
COCO2014,训练集82783张图片,验证集40504张图片,共计123287张图片。
COCO2017,训练集118287张图片,验证集5000张图片,共计123287张图片。

3、object365

旷视科技发布通用物体检测数据集,含63万张图片,覆盖365个类别,边界框高达1000万个。图片数量是COCO的5倍,标注框超过COCO11倍。
密集标注,注重目标间关系,如下图2,左脚和右脚分别标注。
计算机视觉任务及常用数据集_第2张图片

图2 Object365标注

三、图像语义分割(Segmantic segmentation)

确定物体分类,并精确勾勒物体位置。见上图1-c。

1、Cityscapes

城市道路与交通语义分割数据集,8个大类,30个种类胡像素级别标注。含5000张精准标注图像,20000张标注图像,来自50多个城市。
计算机视觉任务及常用数据集_第3张图片

图3 CityScapes标注

四、图像实例分割(Instance segmentation)

多个同类物体存在,一一区分出来。见上图1-d。

五、图像标题生成(Image Caption)

为图像生成一句话的描述文字,见图4。
计算机视觉任务及常用数据集_第4张图片

图4 图像标题生成

要为图片生成标题,首先要理解图片的主要内容,在图片内容和语言文字间建立语义关联。主要方法基于encoder-decoder模型,其中encoder一般为卷积神经网络,利用最后全连接层或卷积层特征作为图像特征,decoder一般为递归神经网络,用于图像描述生成。见图5。除encoder-decoder外,还有基于注意力和MS-Captivator方法。
计算机视觉任务及常用数据集_第5张图片

图5 encoder-decoder模型

六、图像内容生成

创作一幅新的图像。

1、图像超分辨率

由一幅低分辨率图像或图像序列恢复出高分辨率图像,如图8。常见网络bicubic(双三次插值)、SRResNet、SRGAN。
计算机视觉任务及常用数据集_第6张图片

图8 图像超分辨率

2、图像风格转换

Pix2pix、CycleGAN、GcGAN。

你可能感兴趣的:(计算机视觉)