计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等

本篇博文主要对目前公开的计算机视觉常用数据集进行总结。

1.PASCAL VOC(权威鼻祖)

PASCAL VOC是一个图像集,由Mark Everingham (University ofLeeds)、Luc van Gool (ETHZ, Zurich)等人创立,有1.7W+张图片,分为20类。PASCALVOC竞赛也是计算机视觉竞赛的鼻祖,从2005年到2012年一共举办了8届,包含了物体分类(Classification)、目标检测(Detection)、图像分割(Segmentation)、Person Layout等任务,后来逐渐被ILSVRC竞赛替代。
计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第1张图片
下载地址:http://host.robots.ox.ac.uk/pascal/VOC/

百度云下载:VOC2007 train_val_test & VOC2012 train_val
提取码:jz27


2. ImageNet数据集

ImageNet是一个图像集,由斯坦福大学李飞飞创立,有1400W+张样例图片,分为27大类和2W+小类,只能用于非商业研究和教学使用。与ImageNet图像集相应的是著名的ILSVRC竞赛,各种新机器学习算法脱颖而出(AlexNet、ZFNet、GoogleNet、ResNet、…),图像识别率得以显著提高,在ILSVRC竞赛上一举成名是近几年来计算机视觉从业者的梦想。

计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第2张图片
下载地址:http://www.image-net.org/download-imageurls


3. COCO数据集

官网: http://cocodataset.org

MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。

COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。

数据集下载地址

Images:

2014 Train images [83K/13GB]
2014 Val images [41K/6GB]
2014 Test images [41K/6GB]
2015 Test images [81K/12GB]
2017 Train images [118K/18GB]
2017 Val images [5K/1GB]
2017 Test images [41K/6GB]
2017 Unlabeled images [123K/19GB]

Annotations:

2014 Train/Val annotations [241MB]
2014 Testing Image info [1MB]
2015 Testing Image info [2MB]
2017 Train/Val annotations [241MB]
2017 Stuff Train/Val annotations [401MB]
2017 Testing Image info [1MB]
2017 Unlabeled Image info [4MB]

语义分割:

5K minival

35K validation-minus-minival

各数据适用情况:

2014 Train/Val: Detection 2015, Captioning 2015, Detection 2016, Keypoints 2016

2014 Testing: Captioning 2015

2015 Testing: Detection 2015, Captioning 2015, Detection 2016, Keypoints 2016

2017 Train/Val: Detection 2017, Keypoints 2017, Stuff 2017

2017 Testing: Detection 2017, Keypoints 2017, Stuff 2017



COCO系列文章阅读:

MS COCO数据集目标检测评估(Detection Evaluation)(来自官网)

MS COCO数据集人体关键点评估(Keypoint Evaluation)(来自官网)

MS COCO数据集输出数据的结果格式(result format)和如何参加比赛(participate)(来自官网)


4.人脸识别数据集

  • PubFig: Public Figures Face Database
    哥伦比亚大学的公众人物脸部数据集,包含有200个人的58k+人脸图像
    备注:非限制场景下的人脸识别
    链接:http://pan.baidu.com/s/1qYzDU7i 密码:fvja

  • Large-scale CelebFaces Attributes (CelebA) Dataset
    由香港中文大学汤晓鸥教授实验室公布的大型人脸识别数据集。包含有200K张人脸图片,人脸属性有40多种
    备注:主要用于人脸属性的识别
    链接:http://pan.baidu.com/s/1o79BfWe 密码:4bo9

  • Colorferet
    包含了1000多人的10000多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。
    备注:通用人脸库,包含通用测试标准
    链接:http://pan.baidu.com/s/1nvmmPK1 密码:snyi

  • Multi-Task Facial Landmark (MTFL) dataset
    包含了将近13000张人脸图片,均采自网络。
    备注:人脸对齐
    链接:http://pan.baidu.com/s/1kU4X6Az 密码:et35

  • Labeled Faces in the Wild Home (LFW)
    5k+人脸,超过13,000张人脸图像
    备注:标准的人脸识别数据集
    链接:http://pan.baidu.com/s/1bpMyYcv 密码:mkhw

  • CMUVASC & PIE Face dataset
    该数据集中包含了来自68个人的40000张照片,其中又包括了每个人的13种姿态条件,43种光照条件和4种表情下的照片
    备注:非限制场景下的人脸识别
    链接:http://pan.baidu.com/s/1o7S7YUQ 密码:jya4

  • YouTube Faces
    1,595个人,3,425段视频
    备注:非限制场景下的人脸识别
    链接:http://pan.baidu.com/s/1jIRAybW 密码:c27o

  • IMDB-WIKI
    包含:IMDb中20k+个名人的460k+张图片 和维基百科62k+张图片, 总共: 523k+张图片
    备注:名人年龄、性别
    链接:http://pan.baidu.com/s/1hsQs8qK 密码:g74g

  • FDDB
    2845张图片中的5171张脸
    备注:标准人脸检测评测集
    链接:http://pan.baidu.com/s/1bCHtds 密码:2os1


行人检测数据集

  • 行人检测( Pedestrian Detection) 是计算机视觉领域内应用比较广泛和比较热门的算法,一般会与行人跟踪,行人重识别等技术进行结合,来对区域内的行人进行检测识别跟踪,广泛应用于安防,零售等领域。由于行人的外观易受穿着、尺度、遮挡、姿态和视角等影响,行人检测也具有一定的挑战性。
  1. MIT-CBCL Pedestrian Database(MIT行人数据库)
    计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第3张图片
    该数据库为较早公开的行人数据库,共924张行人图片(ppm格式,宽高为64x128),肩到脚的距离约80象素。该数据库只含正面和背面两个视角,无负样本,未区分训练集和测试集。Dalal等采用“HOG+SVM”,在该数据库上的检测准确率接近100%。

  2. USC Pedestrian Detection Test Set(USC行人数据库)
    计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第4张图片
    该数据库包含三组数据集(USC-A、USC-B和USC-C),以XML格式提供标注信息。USC-A[Wu, 2005]的图片来自于网络,共205张图片,313个站立的行人,行人间不存在相互遮挡,拍摄角度为正面或者背面;USC-B的图片主要来自于CAVIAR视频库,包括各种视角的行人,行人之间有的相互遮挡,共54张图片,271个行人;USC-C有100张图片来自网络的图片,232个行人(多角度),行人之间无相互遮挡。

  3. INRIA Person Dataset(INRIA行人数据库)
    计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第5张图片
    该数据库是目前使用最多的静态行人检测数据库,提供原始图片及相应的标注文件。训练集有正样本614张(包含2416个行人),负样本1218张;测试集有正样本288张(包含1126个行人),负样本453张。图片中人体大部分为站立姿势且高度大于100个象素,部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google,因此图片的清晰度较高。在XP操作系统下部分训练或者测试图片无法看清楚,但可用OpenCV正常读取和显示。

  4. Caltech Pedestrian Detection Benchmark(Caltech行人数据库)
    在这里插入图片描述
    该数据库是目前规模较大的行人数据库,采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640x480,30帧/秒。标注了约250,000帧(约137分钟),350000个矩形框,2300个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。

  5. CUHK Occlusion Dataset
    计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第6张图片
    该数据集出自于香港中文大学,可应用于行为分析和行人检测。包含了1063张行人图片。

  6. CUHK Person Re-identification Datasets
    计算机视觉常用数据集总结:包括MS COCO、ImageNet、VOC、人脸识别、行人检测等_第7张图片
    这也是出自于香港中文大学的数据集,使用了两个(不相交的)视角,对971个行人进行了记录。每个行人在每个视角中均进行了两次取样。

你可能感兴趣的:(计算机视觉)