语义分割数据集——VOC2012

该数据集的主要目的是建立针对实际场景中的视觉目标进行识别的挑战任务。基于标注的图像数据,它是基本的有监督学习问题。数据集中总共有20类目标需要识别:

  • Person: person
  • Animal: bird, cat, cow, dog, horse, sheep
  • Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
  • Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

基于上述数据集,有三项视觉目标识别任务:分类(classification),检测(detection),分割(segmentation)。 ImageNet提供了另外一个大规模目标识别数据集,主要用于分类任务。此外,还有一个 Person Layout Taster 数据集,主要识别人体的头、手、脚的位置

voc2012各个文件夹介绍

语义分割数据集——VOC2012_第1张图片

  • Annotations文件夹中是图片的XML信息,xml信息包含了该图片的基本信息,xml语言很易读,我们从中可以轻易得出这幅图片的一些基本信息,其中segmented一栏为1,这里的意思是这幅图用于分割(因为VOC2012中一共有10000+图,但并不都用于分割任务,有的用以物体标识或者动作识别等),若这一栏为0说明这幅图不是用于图像分割的。语义分割数据集——VOC2012_第2张图片

因为VOC2012中的图片并不是都用于分割,所以需要txt文件信息来标记处哪些图片可以用于分割,写程序的时候就可以利用信息 train.txt 对图片进行挑选。train和val中的图片加一起一共2913张图。
语义分割数据集——VOC2012_第3张图片
SegmentationClass中的png图用于图像分割分类,下图中有两类物体,人和飞机,其中飞机和人都对应着特定的颜色,注意该文件夹中的图片为三通道彩色图,与之前单通道的灰度图不同。png图中对物体的分类像素不是0-20,而是对应着不同的RGB分量:语义分割数据集——VOC2012_第4张图片

你可能感兴趣的:(语义分割,深度学习,计算机视觉,人工智能)