本篇博文主要对目前公开的计算机视觉常用数据集进行总结。
PASCAL VOC是一个图像集,由Mark Everingham (University ofLeeds)、Luc van Gool (ETHZ, Zurich)等人创立,有1.7W+张图片,分为20类。PASCALVOC竞赛也是计算机视觉竞赛的鼻祖,从2005年到2012年一共举办了8届,包含了物体分类(Classification)、目标检测(Detection)、图像分割(Segmentation)、Person Layout等任务,后来逐渐被ILSVRC竞赛替代。
下载地址:http://host.robots.ox.ac.uk/pascal/VOC/
百度云下载:VOC2007 train_val_test & VOC2012 train_val
提取码:jz27
ImageNet是一个图像集,由斯坦福大学李飞飞创立,有1400W+张样例图片,分为27大类和2W+小类,只能用于非商业研究和教学使用。与ImageNet图像集相应的是著名的ILSVRC竞赛,各种新机器学习算法脱颖而出(AlexNet、ZFNet、GoogleNet、ResNet、…),图像识别率得以显著提高,在ILSVRC竞赛上一举成名是近几年来计算机视觉从业者的梦想。
下载地址:http://www.image-net.org/download-imageurls
官网: http://cocodataset.org
MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。
数据集下载地址
Images:
2014 Train images [83K/13GB]
2014 Val images [41K/6GB]
2014 Test images [41K/6GB]
2015 Test images [81K/12GB]
2017 Train images [118K/18GB]
2017 Val images [5K/1GB]
2017 Test images [41K/6GB]
2017 Unlabeled images [123K/19GB]
Annotations:
2014 Train/Val annotations [241MB]
2014 Testing Image info [1MB]
2015 Testing Image info [2MB]
2017 Train/Val annotations [241MB]
2017 Stuff Train/Val annotations [401MB]
2017 Testing Image info [1MB]
2017 Unlabeled Image info [4MB]
语义分割:
5K minival
35K validation-minus-minival
各数据适用情况:
2014 Train/Val: Detection 2015, Captioning 2015, Detection 2016, Keypoints 2016
2014 Testing: Captioning 2015
2015 Testing: Detection 2015, Captioning 2015, Detection 2016, Keypoints 2016
2017 Train/Val: Detection 2017, Keypoints 2017, Stuff 2017
2017 Testing: Detection 2017, Keypoints 2017, Stuff 2017
MS COCO数据集目标检测评估(Detection Evaluation)(来自官网)
MS COCO数据集人体关键点评估(Keypoint Evaluation)(来自官网)
MS COCO数据集输出数据的结果格式(result format)和如何参加比赛(participate)(来自官网)
PubFig: Public Figures Face Database
哥伦比亚大学的公众人物脸部数据集,包含有200个人的58k+人脸图像
备注:非限制场景下的人脸识别
链接:http://pan.baidu.com/s/1qYzDU7i 密码:fvja
Large-scale CelebFaces Attributes (CelebA) Dataset
由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。包含有200K张人脸图片,人脸属性有40多种
备注:主要用于人脸属性的识别
链接:http://pan.baidu.com/s/1o79BfWe 密码:4bo9
Colorferet
包含了1000多人的10000多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。
备注:通用人脸库,包含通用测试标准
链接:http://pan.baidu.com/s/1nvmmPK1 密码:snyi
Multi-Task Facial Landmark (MTFL) dataset
包含了将近13000张人脸图片,均采自网络。
备注:人脸对齐
链接:http://pan.baidu.com/s/1kU4X6Az 密码:et35
Labeled Faces in the Wild Home (LFW)
5k+人脸,超过13,000张人脸图像
备注:标准的人脸识别数据集
链接:http://pan.baidu.com/s/1bpMyYcv 密码:mkhw
CMUVASC & PIE Face dataset
该数据集中包含了来自68个人的40000张照片,其中又包括了每个人的13种姿态条件,43种光照条件和4种表情下的照片
备注:非限制场景下的人脸识别
链接:http://pan.baidu.com/s/1o7S7YUQ 密码:jya4
YouTube Faces
1,595个人,3,425段视频
备注:非限制场景下的人脸识别
链接:http://pan.baidu.com/s/1jIRAybW 密码:c27o
IMDB-WIKI
包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片
备注:名人年龄、性别
链接:http://pan.baidu.com/s/1hsQs8qK 密码:g74g
FDDB
2845张图片中的5171张脸
备注:标准人脸检测评测集
链接:http://pan.baidu.com/s/1bCHtds 密码:2os1
MIT-CBCL Pedestrian Database(MIT行人数据库)
该数据库为较早公开的行人数据库,共924张行人图片(ppm格式,宽高为64x128),肩到脚的距离约80象素。该数据库只含正面和背面两个视角,无负样本,未区分训练集和测试集。Dalal等采用“HOG+SVM”,在该数据库上的检测准确率接近100%。
USC Pedestrian Detection Test Set(USC行人数据库)
该数据库包含三组数据集(USC-A、USC-B和USC-C),以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络,共205张图片,313个站立的行人,行人间不存在相互遮挡,拍摄角度为正面或者背面;USC-B的图片主要来自于CAVIAR视频库,包括各种视角的行人,行人之间有的相互遮挡,共54张图片,271个行人;USC-C有100张图片来自网络的图片,232个行人(多角度),行人之间无相互遮挡。
INRIA Person Dataset(INRIA行人数据库)
该数据库是目前使用最多的静态行人检测数据库,提供原始图片及相应的标注文件。训练集有正样本614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。图片中人体大部分为站立姿势且高度大于100个象素,部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google,因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚,但可用OpenCV正常读取和显示。
Caltech Pedestrian Detection Benchmark(Caltech行人数据库)
该数据库是目前规模较大的行人数据库,采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640x480,30帧/秒。标注了约250,000帧(约137分钟),350000个矩形框,2300个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。
CUHK Occlusion Dataset
该数据集出自于香港中文大学,可应用于行为分析和行人检测。包含了1063张行人图片。
CUHK Person Re-identification Datasets
这也是出自于香港中文大学的数据集,使用了两个(不相交的)视角,对971个行人进行了记录。每个行人在每个视角中均进行了两次取样。