Pascal VOC网址:http://host.robots.ox.ac.uk/pascal/VOC/
VOC2012数据集下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
参考链接:https://blog.csdn.net/zz2230633069/article/details/84769339
Pascal VOC的三个主要物体识别竞赛是:分类,检测和分割(classification, detection, and segmentation)。对于分割任务, VOC2012的trainval包含2007-2011年的所有对应图片, test只包含2008-2011。trainval有 2913张图片共6929个物体。
总共20类如下(背景为第21类):
Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
序号为(0代表背景,1~20代表20个类别):
0 |
background |
|
|
1 |
aeroplane |
11 |
diningtable |
2 |
bicycle |
12 |
dog |
3 |
bird |
13 |
horse |
4 |
boat |
14 |
motorbike |
5 |
bottle |
15 |
person |
6 |
bus |
16 |
pottedplant |
7 |
car |
17 |
sheep |
8 |
cat |
18 |
sofa |
9 |
chair |
19 |
train |
10 |
cow |
20 |
tv |
分布如下:
类别与颜色的对应关系如下:
一张标签图片总共有22种数字(0-20,255)其中0和255的颜色都是黑色RGB=(0,0,0),所以语义图总共有21种颜色。
下载后得到如下压缩包:
在VOCdevkit/VOC2012下有5个文件夹,如下所示:
逐个介绍:
Annotations文件夹中存放的是xml格式的标签文件,每一个xml文件都对应于JPEGImages文件夹中的一张图片,共计17125个文件,如下所示:
以2007_000027.xml和2007_000032.xml文件为例,打开xml文件(截取部分):
2007_000027.xml文件:
2007_000032.xml文件:
红框标注部分表示是否可以用于分割:0否;1是。
ImageSets存放的是每一种类型的challenge对应的图像数据。
在ImageSets下有四个文件夹:
Action:存放的是人的动作(running、jumping等等)
Layout:存放的是具有人体部位的数据(人的head、hand、feet等等)
Main:存放的是图像物体识别的数据,总共分为20类。
Segmentation:存放的是可用于分割的数据。
主要看Segmentation文件夹。其中包含了train.txt(1416张图)、val.txt(1449张图)和trainval.txt(2913张图)三个文本文件,里面储存的是用于语义分割的图片的名字(无扩展名)。train和val两者没有交集,即训练数据和验证数据不能有重复,随机产生而trainval则是两者的总和。
JPEGImages文件夹中包含了PASCAL VOC提供的所有的就jpg图片,共计17125张,包括了训练和测试图片。
这些图像都以“年份_编号.jpg”格式命名。
图片的像素尺寸大小不一,但是横向图的尺寸大约在500*375左右,纵向图的尺寸大约在375*500左右,长宽均不会超过512。
保存了分割后的标签图(2913张png图片),标注出了每一个像素属于哪一个类别。
保存了分割后的标签图(2913张png图片),标注出了每一个像素属于哪一个具体的物体。
对比上面两个文件夹中文件的区别:
注意:上面两个文件夹中的label图,位深度是8位,并不是RGB三通道,只是由于colormap的存在,使其看起来是彩色的(具体我也不太了解)。因此,在deeplabv3+方法中,准备数据时需要先去掉label们的colormap。