PASCAL VOC为图像识别提供了一套标准化的优秀的数据集。其三个主要的物体识别竞赛分别是分类classification, 检测detection, 分割segmentation。
PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning,分别是 模式分析、 统计建模、 计算学习;
VOC----Visual Object Class, 视觉对象类;
对于分割任务, VOC2012的trainval包含2007-2011年所有对应图片,test只包含2008-2011,trainval有2913张图片,共6929个物体。
总共分成20+1类,有20类物体,第21类为背景:
Person : person
Animal : bird , cat , cow , dog , horse , sheep
Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train
Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor
编号分别如下:(序号为(0代表背景,1~20代表20个类别))
0 | background | ||
1 | aeroplane | 11 | dining-table |
2 | bicycle | 12 | dog |
3 | bird | 13 | horse |
4 | boat | 14 | motorbike |
5 | bottle | 15 | person |
6 | bus | 16 | pottedplant |
7 | car | 17 | sheep |
8 | cat | 18 | sofa |
9 | chair | 19 | train |
10 | cow | 20 | tv |
每个类别的分布如下:
类别与颜色的对应关系如下(RGB数值)
下载后得到如下压缩包:(图是在linux系统下的图标)
解压后如图所示:
该文件夹包含了PASCAL VOC所提供的所有的信息图片,包括训练图片和测试图片。
这些图片的命名格式都是“年份_编号.jpg”,图片大小尺寸不一,横向图尺寸大概在500*375,纵向图尺寸大约在375*500, 偏差在100之内。
此文件夹存放的是xml格式的标签文件,每个xml文件都与JPEGImages中的图片一一对应。
以2007_000392为例,xml文件的具体格式如下所示:
VOC2012
2007_000392.jpg //文件名
//图像尺寸(长宽以及通道数)
500
332
3
1 //是否用于分割(在图像物体识别中01无所谓)
其对应的图片如下:
这里仅对比较重要的做出解释:
size
size下包括了与图片尺寸相关的信息,其中 :
segmented
表示图像是否进行分割,1表示是,0表示否。
object
object下包括的是目标检测的相关信息,object可以出现多个。其中:
该文件夹下存放的是每一种类型的challenge对应的图像数据,包含4个子文件夹:
包含了20个分类的不同的 ***_train.txt, ***_val.txt, ***_trainval.txt。截图如下:
从图片中右边打开的txt文件可见:
最左一列为图片的name,后面的 1 表示这个样本为正样本, -1表示这个样本为负样本。
train里面放的是训练使用的数据,每一个CLASS有5717个;
val里面放的是验证结果使用的数据,每一个CLASS有5823个;
trainval是将上面两个进行合并;
一共花分类11个动作类别,如下图所示:
下图为具体的TXT文件内容:第一列为图片名,第二列为上表中的序号,第三列为样本属性:1为正样本;-1为负样本;
Layout文件夹存储的是人体部位识别竞赛中相关的数据集图片列表。
具体内容如下图所示:
第一列为图片名,第二列为图片中所包含的人数。
这个文件夹里面存放的是与 物体分割任务相关的图片。如下图展示:
上面的文件夹为SegmentationClass;存放语义分割图;标注每一个像素属于哪一个类别;
下面的文件夹为SegmentationObject; 存放实例分割图;标注每一个像素属于哪一个物体;
放一个图可以进行直观的对比:
可以看到同样是火车,语义分割时两个时同一个颜色,在实例分割时则为不同颜色。
在voc数据集里面,分割的颜色与类别对应关系如下图所示:
这里强调一点,这两个文件夹下面的图片位深度是8。
这里对比一下RGB图像的位深度位24,每个通道都有8位。而8位深的图像一般都是灰度图像,这是VOC2012 mask的特殊性。
PS:我也不太懂“ 由于colormap”的存在,使其看起来是彩色的,在deeplabv3+,准备数据时要去掉label的colormap” 。
另附,voc2007,voc2012镜像下载的链接:
https://pjreddie.com/projects/pascal-voc-dataset-mirror/