一、字符数据集
1、MNIST数据集
2、SVHN数据集
二、物体数据集
1、CIFAR 10 & CIFAR 100数据集
2、谷歌Open Images图像数据集
3、ImageNet数据集
4、Tiny Images数据集
5、CoPhIR数据集
6、LSUN数据集
7、COCO数据集
三、人脸数据集
4、FDDB(Face Detection Data Set and Benchmark)数据集
5、WIDER FACE数据集
6、CMU-MIT数据集
14、celeba人脸数据集
四、车辆数据集
1、KITTI(Karlsruhe Institute ofTechnology and Toyota Technological Institute)数据集
五、行人检测数据集
1、INRIA Person图像数据集
2、CaltechPedestrian Detection Benchmark数据集
4、WiderPerson行人密度检测数据集
5、行人重识别数据集RAiD
6、行人检测数据集ETHZ
7、PRID450S行人重识别数据集
8、行人重识别数据集prid_2011
9、行人重识别数据集Market-1501
10、GM-ATCI后视行人数据集
机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。
下载地址:工作台 - Heywhale.com
SVHN数据来源于 Google 街景视图中房屋信息,它是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它跟MNIST相似,但是包含更多数量级的标签数据(超过60万个数字图像),并且来源更加多样,用来识别自然场景图像中的数字。
下载地址:工作台 - Heywhale.com
CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张图像。 有50000个训练图像和10000个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别,可用于计算机视觉相关方向。
下载地址:工作台 - Heywhale.com
其中包括大约9百万标注图片、横跨6000个类别标签,平均每个图像拥有8个标签。
该数据集的标签涵盖比拥有1000个类别标签的ImageNet具体更多的现实实体,可用于计算机视觉方向的训练。
下载地址:Open Images V6
ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域,该数据集有1000多个图像,涵盖图像分类、定位、检测等应用方向。
Imagenet数据集文档详细,有专门的团队维护,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。很多大型科技公司都会参加ImageNet图像识别大赛,包括百度、谷歌、微软等。
下载地址:ImageNet
该数据集由79302017张图像组成,每张图像为32x32彩色图像。 该数据以二进制文件的形式存储,大约有400Gb图像。
小规模的ImageNet下载地址:工作台 - Heywhale.com
完整下载地址:http://horatio.cs.nyu.edu/mit/tiny/data/index.html
CoPhIR是从Flickr中采集的大概1.06亿个图像数据集,图像中不仅包含了图表本身的数据,例如位置、标题、GPS、标签、评论等,还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。
下载地址:CoPhIR - what is
PASCAL VOC和ImageNet ILSVRC比赛使用的数据集,数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。
它包含10个场景类别和20个对象类别中的每个类别的大约一百万张带标签的图像。
下载地址:LSUN
COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,由微软赞助,图像中不仅有标注类别、位置信息,还有对图像的语义文本描述。
COCO数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
下载地址:http://mscoco.org/
1、AFW(Annotated Faces in the Wild)数据集
AFW数据集是使用Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库,包含205个图像,其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框,6个地标和相关的姿势角度。数据库虽然不大,额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。
下载地址:http://www.ics.uci.edu/~xzhu/face/
2、LFW(Labeled Faces in the Wild)数据集
该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字,图片中的1680人在数据集中有两个或更多不同的照片。
下载地址:http://vis-www.cs.umass.edu/lfw/
3、AFLW(Annotated Facial Landmarks in the Wild)数据集
AFLW人脸数据库是一个包括多姿态、多视角的大规模人脸数据库,而且每个人脸都被标注了21个特征点。此数据库信息量非常大,包括了各种姿态、表情、光照、种族等因素影响的图片。AFLW人脸数据库大约包括25000万已手工标注的人脸图片,其中59%为女性,41%为男性,大部分的图片都是彩色,只有少部分是灰色图片。该数据库非常适合用于人脸识别、人脸检测、人脸对齐等方面的研究,具有很高的研究价值。
下载地址:ICG - Research
ICG - AFLW
FDDB数据集主要用于约束人脸检测研究,该数据集选取野外环境中拍摄的2845个图像,从中选择5171个人脸图像。是一个被广泛使用的权威的人脸检测平台。
下载地址:工作台 - Heywhale.com
WIDER FACE是香港中文大学的一个提供更广泛人脸数据的人脸检测基准数据集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203个图像和393703个人脸图像,在尺度,姿势,闭塞,表达,装扮,关照等方面表现出了大的变化。WIDER FACE是基于61个事件类别组织的,对于每一个事件类别,选取其中的40%作为训练集,10%用于交叉验证(cross validation),50%作为测试集。和PASCAL VOC数据集一样,该数据集也采用相同的指标。和MALF和Caltech数据集一样,对于测试图像并没有提供相应的背景边界框。
下载地址:WIDER FACE: A Face Detection Benchmark
CMU-MIT是由卡内基梅隆大学和麻省理工学院一起收集的数据集,所有图片都是黑白的gif格式。
里面包含511个闭合的人脸图像,其中130个是正面的人脸图像。
下载地址:工作台 - Heywhale.com
7、GENKI数据集
GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。
GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。
下载地址1:http://mplab.ucsd.edu
下载地址2:GitHub - watersink/GENKI: GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。
8、IJB-A (IARPA JanusBenchmark A)数据集
IJB-A是一个用于人脸检测和识别的数据库,包含24327个图像和49759个人脸。
下载地址:IJB-A Dataset Request Form | NIST
9、MALF (Multi-Attribute Labelled Faces)数据集
MALF是为了细粒度的评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet,包含5250个图像,11931个人脸。每一幅图像包含正方形边界框,俯仰、蜷缩等姿势等。该数据集忽略了小于20*20的人脸,大约838个人脸,占该数据集的7%。同时,该数据集还提供了性别,是否带眼镜,是否遮挡,是否是夸张的表情等信息。
下载地址:Fine-grained Evaluation on Face Detection in the Wild
10、MegaFace数据集
MegaFace资料集包含一百万张图片,代表690000个独特的人。所有数据都是华盛顿大学从Flickr(雅虎旗下图片分享网站)组织收集的。这是第一个在一百万规模级别的面部识别算法测试基准。 现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在去年年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。
下载地址:MegaFace
11、IMM Data数据集
IMM人脸数据库包括了240张人脸图片和240个asf格式文件(可以用UltraEdit打开,记录了58个点的地标),共40个人(7女33男),每人6张人脸图片,每张人脸图片被标记了58个特征点。所有人都未戴眼镜。
下载地址:http://www2.imm.dtu.dk/~aam/datasets/datasets.html
12、MUCT Data数据集
MUCT人脸数据库由3755个人脸图像组成,每个人脸图像有76个点的地标(landmark),图片为jpg格式,地标文件包含csv,rda,shape三种格式。该图像库在种族、关照、年龄等方面表现出更大的多样性。
下载地址:The MUCT Face Database
13、ORL (AT&T Dataset)数据集
ORL数据集是剑桥大学AT&T实验室收集的一个人脸数据集。包含了从1992.4到1994.4该实验室的成员。该数据集中图像分为40个不同的主题,每个主题包含10幅图像。对于其中的某些主题,图像是在不同的时间拍摄的。在关照,面部表情(张开眼睛,闭合眼睛,笑,非笑),面部细节(眼镜)等方面都变现出了差异性。所有图像都是以黑色均匀背景,并且从正面向上方向拍摄。其中图片都是PGM格式,图像大小为92*102,包含256个灰色通道。
下载地址:http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
CeleA是香港中文大学的开放数据,包含10177个名人身份的202599张图片,并且都做好了特征标记,这对人脸相关的训练是非常好用的数据集。
下载地址:工作台 - Heywhale.com
KITTI包含7481个训练图片和7518个测试图片。所有图片都是真彩色png格式。
该数据集中标注了车辆的类型,是否截断,遮挡情况,角度值,2维和3维box框,位置,旋转角度,分数等重要的信息,绝对是做车载导航的不可多得的数据集。
下载地址:The KITTI Vision Benchmark Suite
Inria数据集是最常使用的行人检测数据集。其中正样本(行人)为png格式,负样本为jpg格式。里面的图片分为只有车,只有人,有车有人,无车无人四个类别。图片像素为70134,96160,64*128等。
下载地址:工作台 - Heywhale.com
加州理工学院的步行数据集包含大约包含10个小时640x480 30Hz的视频。其主要是在一个在行驶在乡村街道的小车上拍摄。视频大约250000帧(在137个约分钟的长段),共有350000个边界框和2300个独特的行人进行了注释。注释包括包围盒和详细的闭塞标签之间的时间对应关系。更多信息可在其PAMI 2012 CVPR 2009标杆的论文获得。
下载地址:Caltech Pedestrian Detection Benchmark
3、MIT cbcl (center for biological and computational learning)Pedestrian Data 数据集
该数据集主要包含2个部分,一部分为128*64的包含924个图片的ppm格式的图片,另一部分为从打图中分别切割而出的小图,主要包含胳膊,脑袋,脚,腿,头肩,身体等。
下载地址:New Page 1
WiderPerson数据集是室外行人检测的基准数据集,其图像源自多种场景,而不仅仅局限于交通场景。我们选择了13382张图像,用各种遮挡标记了约40万个注释。并随机选择8000/1000/4382图像作为训练,验证和测试子集。
下载地址:工作台 - Heywhale.com
该数据集是在加州大学河滨分校的温斯顿钟楼大厅收集的。它由2个室内和2个室外摄像机收集。摄像机编号为1,2,3和4,其中摄像机1和2在室内,而摄像机3和4在室外。这些摄影机套图中有43个行人人,共有6920张图像。
在这43个人中,有41个人出现在所有4个摄像机中,其中在相机3中没有id为8的行人,在相机4中没有id为34的行人。
下载地址:工作台 - Heywhale.com
与从多个静态摄像机收集图像的其他数据集不同,ETHZ数据集从移动的摄像机收集图像。
该数据集从移动的摄像机收集图像,包含3个视频序列图像。
对于这项研究,我们使用视频中人的真实位置来进行分割,然后创建一个目录,其中包含每个视频序列的每个人的样本。 目录中的样本具有原始尺寸,但在我们的实验中将其调整为32x64像素值。
下载地址:工作台 - Heywhale.com
此数据集是与奥地利技术学院合作创建的,目的是检验行人重新识别方法。
它基于PRID 2011数据集,包含从两个不同的静态监控摄像机记录的450对图像。
另外,数据集还提供自动生成的基于运动的前景/背景分割以及人的部分的手动分割。
下载地址:工作台 - Heywhale.com
该数据集由Austrian Institute of Technology大学采集,目的是为了推进行人重识别技术的研究。
数据集由从两个不同的静态监控摄像头记录的多个行人人轨迹中提取的图像组成。这些图像由于摄像机视点的变化以及照明度,行人背景和摄像机特性等因素而存在差异。由于图像是从轨迹中提取的,因此每个人在图像中都存在几种不同的姿势。我们从一种视角记录了475人的轨迹,从另一种视角记录了856人的轨迹,两种视角都出现了的有245人。我们已经过滤掉了一些被严重遮挡的行人,在一个摄像头下可靠图像少于五个的行人,以及由于标注错误而导致损坏的图像。
下载地址:工作台 - Heywhale.com
该数据在清华大学的开放式环境中由六个摄像头采集得到。 该数据集还包括来自DPM的2793个虚假警报,它们是干扰因素,可以模仿真实情况。 边框的质量比CUHK03数据集差。
该数据集包括了1501个行人,751个行人用于训练,有750个人用于测试,共有3368个图像。 测试集中有19732张图像,训练集中有12936张图像。
下载地址:工作台 - Heywhale.com
该数据集是使用车载标准汽车后视摄像头收集的,用于评估后视行人检测。
为安全起见,将生产的180度鱼眼镜头摄像机安装在车辆的前部,但采用典型的后视安装姿势:高度为107厘米,向下倾斜角度为25度。
数据集包含15个拍摄时段,每个拍摄时段在不同的日子以不同的场景进行。每个会话包含多个剪辑,持续时间从几秒钟到几分钟不等。数据集总共包含250个剪辑,总持续时间为76分钟,并带有超过20万个带注释的行人边界框。
下载地址:工作台 - Heywhale.com