数据集简介

1.celeba数据集简介

CelebA人脸数据集
该数据集解压后有3个文件夹,Anno文件夹是存放标注文件的,Eval文件夹是存放评估列表文件的,Img文件是存放图片文件的。
Img中有3中类型的图像文件,其中

img_align_celeba.zip是经过对人脸居中,裁剪,并统一大小为178*178的jpg图片;
img_align_celeba_png.7z中的图片跟img_align_celeba.zip中的图片一样,唯一不同的是这些图片是png格式的,所以这些图片要大得多。
img_celeba.7z这个是人脸图片的原始图片,没有经过居中裁剪等处理的图片。

Anno文件夹中有5个标注文件,其中
identity_CelebA.txt是指定每张图片对应的人脸标签,格式为:图片名称 人脸ID

000001.jpg 2880
000002.jpg 2937
000003.jpg 8692
000004.jpg 5805

list_attr_celeba.txt文件是标注人脸属性的,比如该人脸是否黑色头发,是否戴眼镜等等

5_o_Clock_Shadow Arched_Eyebrows Attractive Bags_Under_Eyes Bald Bangs Big_Lips Big_Nose Black_Hair Blond_Hair Blurry Brown_Hair Bushy_Eyebrows Chubby Double_Chin Eyeglasses Goatee Gray_Hair Heavy_Makeup High_Cheekbones Male Mouth_Slightly_Open Mustache Narrow_Eyes No_Beard Oval_Face Pale_Skin Pointy_Nose Receding_Hairline Rosy_Cheeks Sideburns Smiling Straight_Hair Wavy_Hair Wearing_Earrings Wearing_Hat Wearing_Lipstick Wearing_Necklace Wearing_Necktie Young 
000001.jpg -1  1  1 -1 -1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1  1  1 -1  1 -1 -1  1 -1 -1  1 -1 -1 -1  1  1 -1  1 -1  1 -1 -1  1
000002.jpg -1 -1 -1  1 -1 -1 -1  1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1  1 -1  1 -1 -1  1 -1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1  1
000003.jpg -1 -1 -1 -1 -1 -1  1 -1 -1 -1  1 -1 -1 -1 -1 -1 -1 -1 -1 -1  1 -1 -1  1  1 -1 -1  1 -1 -1 -1 -1 -1  1 -1 -1 -1 -1 -1  1

list_bbox_celeba.txt文件是标注人脸在图片中的位置,标注信息为image_id x_1 y_1 width height

image_id x_1 y_1 width height
000001.jpg    95  71 226 313
000002.jpg    72  94 221 306
000003.jpg   216  59  91 126
000004.jpg   622 257 564 781

list_landmarks_align_celeba.txt该文件是居中后图片的人脸关键点的标注文件,一共有5个关键点,为眼睛、鼻子和嘴角。

lefteye_x lefteye_y righteye_x righteye_y nose_x nose_y leftmouth_x leftmouth_y rightmouth_x rightmouth_y
000001.jpg 69  109  106  113   77  142   73  152  108  154
000002.jpg 69  110  107  112   81  135   70  151  108  153
000003.jpg 76  112  104  106  108  128   74  156   98  158
000004.jpg 72  113  108  108  101  138   71  155  101  151

list_landmarks_celeba.txt文件是原图片中人脸关键点的位置。

lefteye_x lefteye_y righteye_x righteye_y nose_x nose_y leftmouth_x leftmouth_y rightmouth_x rightmouth_y
000001.jpg 165  184  244  176  196  249  194  271  266  260
000002.jpg 140  204  220  204  168  254  146  289  226  289
000003.jpg 244  104  264  105  263  121  235  134  251  140

2.CIFAR-10

数据集简介_第1张图片

3.LFW Face数据集

LFW数据集主要测试人脸识别的准确率,该数据库从中随机选择了6000对人脸组成了人脸辨识图片对,其中3000对属于同一个人2张人脸照片,3000对属于不同的人每人1张人脸照片。测试过程LFW给出一对照片,询问测试中的系统两张照片是不是同一个人,系统给出“是”或“否”的答案。通过6000对人脸测试结果的系统答案与真实答案的比值可以得到人脸识别准确率。

4.voc2007数据集数据集简介_第2张图片

JPEGImages
这个文件夹主要放置数据的原始图片,图片的文件名用00001.jpg进行命名。

Annotations
这个文件夹放置的是对每一张图片的标注。标注使用XML文件的格式。XML是标记语言,形如HTML,详细概念参看百度。每一个XML文件对应一张图片的标注结果,我们以上图000005.jpg的标注为例进行说明。


    VOC2007
    
    000005.jpg.   
    
    
        
        The VOC2007 Database
        PASCAL VOC2007
    
        flickr
        325991873
    
    
    
        archintent louisville
        ?
    
    
    
        500
        375
        3
    
    
    0
    
    
        
        chair
        Rear
        
        0
        
        0
        
        
            263
            211
            324
            339
        
    
    
        chair
        Unspecified
        0
        0
        
            165
            264
            253
            372
        
    
    
        chair
        Unspecified
        1
        1
        
            5
            244
            67
            374
        
    
    
        chair
        Unspecified
        0
        0
        
            241
            194
            295
            299
        
    
    
        chair
        Unspecified
        1
        1
        
            277
            186
            312
            220
        
    

Imagesets
VOC2007/ImageSets/Main/文件夹包含txt文件,这些文件指定哪些是图片用于哪一个类的训练还是验证,其中1表示正例,-1表示反例。
trainval这样的文件,表示训练集和验证集一起的文件。

你可能感兴趣的:(数据集简介)