数据集分为三类:图像处理相关数据集,自然语言处理相关数据集和语音处理相关数据集。参考:here
以下主要是图像处理相关数据集。
1、mnist:详情
MNIST数据来自美国国家标准与技术研究所,National Institute of Standards and Technology(NIST)训练集(training set)来自250不同的人手写的数字构成,其中50%是高中学生,50%来自人口普查局(the Census Bureau)的工作人员。测试集(test set)也是同样比例的手写数字数据。
共分为四个文件:
train-images-idx3-ubyte.gz | training set images(9912422 bytes),55000张训练图片,5000张验证图片,共60000张 |
train-labels-idx1-ubyte.gz | training set labels(28881 bytes), |
t10k-images-idx3-ubyte.gz | test set images(1648877 bytes),10000张图片 |
t10k-labels-idx1-utype.gz | test set labels(4542 bytes), |
数据是IDX文件格式,是一种用来存储向量与多维度矩阵的文件格式。基本格式如下:
TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
[offset] [type] [value] [description]
0000 32 bit integer 0x00000803(2051) magic number
0004 32 bit integer 60000 number of images
0008 32 bit integer 28 number of rows
0012 32 bit integer 28 number of columns
0016 unsigned byte ?? pixel
0017 unsigned byte ?? pixel
........
xxxx unsigned byte ?? pixel
Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).
TRAINING SET LABEL FILE (train-labels-idx1-ubyte):
[offset] [type] [value] [description]
0000 32 bit integer 0x00000801(2049) magic number (MSB first)
0004 32 bit integer 60000 number of items
0008 unsigned byte ?? label
0009 unsigned byte ?? label
........
xxxx unsigned byte ?? label
The labels values are 0 to 9.
TEST SET IMAGE FILE (t10k-images-idx3-ubyte):
[offset] [type] [value] [description]
0000 32 bit integer 0x00000803(2051) magic number
0004 32 bit integer 10000 number of images
0008 32 bit integer 28 number of rows
0012 32 bit integer 28 number of columns
0016 unsigned byte ?? pixel
0017 unsigned byte ?? pixel
........
xxxx unsigned byte ?? pixel
Pixels are organized row-wise. Pixel values are 0 to 255. 0 means background (white), 255 means foreground (black).
TEST SET LABEL FILE (t10k-labels-idx1-ubyte):
[offset] [type] [value] [description]
0000 32 bit integer 0x00000801(2049) magic number (MSB first)
0004 32 bit integer 10000 number of items
0008 unsigned byte ?? label
0009 unsigned byte ?? label
........
xxxx unsigned byte ?? label
The labels values are 0 to 9.
大小:约50M
数量:10个类别,70000张图片
最新技术结果论文(SOTA):Dynamic Routing Between Capsules
2、MS-COCO【官方说明网址】:Microsoft COCO, 2014年发布【一个详细的COCO学习笔记】。
COCO是一个可用于Object detection, Segmentation and caption的大型数据集。有以下特点:
大小:约25GB(压缩包),500MB左右的标签文件。标签文件标记了每个segmentation+bounding box(即分割物+分割物的边界)的精确坐标,精度均为小数点后两位。
数量:330K张图片,80个对象类别,每个图像5万个描述,25万个人(已标记)
(最新技术论文)SOTA:Mask rcnn
3、ImageNet:【官方】
ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100000个短语,ImageNet平均提供了约1000个图片来说明每个短语。
大小:约150GB
数量:图像总数是14000000+;类别1000。每个都有多个边界框和相应的类标签。
SOTA:Aggregated Residual Transformations for Deep Neural Networks
ISLVRC(ImageNet Large Scale Visual Recognition Challenge):比赛用的ImageNet的子数据集。
比赛包含有目标定位、目标检测、视频序列的目标检测、场景分类、场景分析这几个项目。
ISLVRC历年的数据集:2016、2015、2014、2013、2012、2011、2010
4、Open Images Dataset:【github链接】
Open Images Dataset是一个包含了超过900w个链接图像的数据集。其中包含9011219张图像的训练集,41260张图像的验证集以及125436张图像的测试集。它的图像中类跨越千个类别,且有图像层级的标注框进行注释。
大小:500G(压缩包)
数量:9011219张超过5K标签的图像
SOTA:Resnet 101 image classfication model(trained on v2 data):Model checkpoint, Checkpoint readme, inference code.
5、CIFAR-10
数量:10个类别,60000个32x32彩色图像,共分为50000个训练图和10000个侧视图。数据集分为6个部分-5个训练批次(training batches)和1个测试批次(test batches),每个批次(batch)有10000个图像。
大小:170M
SOTA:ShakeDrop regularization
CIFAR-100:
共100个类,每个类包含600个图像,每个类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个”精细“标签(它所属的类)和一个”粗糙“的标签(它所属的超类)
6、pascal_voc【数据集直接下载地址:2012_trainval、2007_trainval、2007_test】
Pattern Analysis, Statistical Modelling and Computational Learning
VOC:Visual Object Classes
包含了20类的物体。
主要任务是: