【深度学习】深度学习常用数据集

常用数据集

  • Iris数据集(鸢尾花数据集)
  • MushRoom数据集(蘑菇数据集)
  • Bostom Housing数据集(波士顿房价数据集)
  • Linnerrud 数据集
  • MINST数据集
  • Caltech101数据集
  • Caltech256数据集
  • CIFAR-10数据集
  • CIFAR-100数据集
  • SVHN数据集
  • ImageNet数据集
  • PASCAL VOC数据集
  • COCO数据集
  • YouTube-8M 数据集
  • IMDB-WIKI 人脸数据库

Iris数据集(鸢尾花数据集)

是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

MushRoom数据集(蘑菇数据集)

https://archive.ics.uci.edu/ml/datasets/Mushroom

该数据集包括与蘑菇和Lpiota科23种鳃蘑菇相对应的假设样本的描述(第500-525页)。每个物种被确定为绝对可食用,绝对有毒,或未知的可食用性,不推荐。后一类是与有毒的结合起来的。

Bostom Housing数据集(波士顿房价数据集)

介绍:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

该数据集包含美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获得的(Http://lib.stat.cmu.edu/datasets/boston),并在整个文献中广泛应用于对算法进行基准测试。然而,这些比较主要是在钻研因此有点可疑。数据集很小,只有506个案例。

Linnerrud 数据集

Linnerrud 数据集包含两个小的数据集:
运动: 一个包含以下内容的列表:运动数据,关于3个运动相关变量的20个观测值:体重,腰围和脉搏。生理: 一个包含以下内容的数据表:生理数据,关于三个生理变量的20个观测值:下巴,仰卧起坐和跳跃。

MINST数据集

官网:http://yann.lecun.com/exdb/mnist/

下载:https://hyper.ai/datasets/4923

MNIST数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。

Caltech101数据集

下载:https://hyper.ai/datasets/5258

Caltech-101 Dataset 是由 101 个类别的对象图片组成的数据集,它主要用于目标识别和图像分类。不同类别有 40 至 800 张图片,每张图片的大小在 300 * 200 像素,且数据集的发布者均已标注对应的目标以供使用。

Caltech256数据集

下载:https://hyper.ai/datasets/5261

caltech-256 数据集是 caltech-101 数据集的改进版图片数据集
有几处改进: a)类别数量增加一倍以上 b)任何类别中图像的最小数量从 31 增加到 80 c)避免因图像旋转造成的伪影 d)引入了一个新的更大的杂波类别来测试背景拒绝。
该数据集收集了 256 个类的 20607 张图片,由加州理工学院的李菲菲,马克安德烈托和 Marc’Aurelio Ranzato 收集。

CIFAR-10数据集

介绍:https://www.cnblogs.com/cloud-ken/p/8456878.html

CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像,但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说,五个训练集之和包含来自每个类的正好5000张图像。

CIFAR-100数据集

介绍:https://www.cnblogs.com/cloud-ken/p/8456878.html
这个数据集就像CIFAR-10,除了它有100个类,每个类包含600个图像。每类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)

SVHN数据集

介绍:https://cloud.tencent.com/developer/article/1545832

下载:https://hyper.ai/datasets/5669

SVHN Dataset 是一个真实图像数据集,其被用于开发机器学习和对象识别 算法 ,七对数据预处理和格式化的要求很低,该数据集与 MNIST 的特点相似,但是包含更多标记数据的数量级,且来自更加困难、未解决的现实世界问题。
该数据集由斯坦福大学于 2011 年发布,其中数据均采自于 Google 街景图像中的门牌号码,相关论文有《Reading Digits in Natural Images with Unsupervised Feature Learning》。
SVHN(Street View House Number)Dateset 来源于谷歌街景门牌号码,原生的数据集1也就是官网的 Format 1 是一些原始的未经处理的彩色图片,如下图所示(不含有蓝色的边框),下载的数据集含有 PNG 的图像和 digitStruct.mat 的文件,其中包含了边框的位置信息,这个数据集每张图片上有好几个数字,适用于 OCR 相关方向。这里采用 Format2, Format2 将这些数字裁剪成32x32的大小

ImageNet数据集

下载:https://hyper.ai/datasets/4889

ImageNet数据集是一个计算机视觉数据集。该数据集包合 14,197,122张图片和21,841个Synset索引。 Synset是WordNet层次结构中的一个节点,它又是 一组同义词集合。 ImageNet数据集一直是评估图像分类算法性能的基准。
ImageNet Dataset 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测,根据 WordNet 层次 结构 组织,其中每个节点由数百甚至数千张图像描绘,每个节点有平均超过 500 个图像,包含 2.2 万类约 1500 万张图片。
ImageNet Dataset 由斯坦福大学的李飞飞等人于 2009 年在视觉科学学会首次发布,并在 2010 年起的 ImageNet 视觉识别挑战赛(ILSVRC)上不断完善

PASCAL VOC数据集

官网:http://host.robots.ox.ac.uk/pascal/VOC/

下载:https://hyper.ai/datasets/7660

PASCAL VOC DATASET 由 Pascol VOC 项目组于 2012 年发布,其包含往届 PASCAL VOC 挑战赛的成果,同时这项挑战赛也与 2012 年完成最后一届。
PASCAL VOC 大赛是一项世界级 计算机视觉 挑战赛,该挑战赛由 Mark Everingham、Luc Van Gool、Chris Williams、John Winn 和 Andrew Zisserman 发起,并在 2005 至 2012 年期间举办,比赛项目包括图像分类、目标检测、目标分割、人体关节点识别、动作识别几大类。
其中 2012 年最后一次比赛的赛后数据集集中于目标分类和目标检测,该训练集包含 11540 张图片;目标分割的数据集则包含 2913 张图片。
Pascal VOC2012数据集主要是针对视觉任务中监督学习提供标签数据,它有二十个类别:
**Person:**person
Animal: bird, cat, cow, dog, horse, sheep
**Vehicle:**aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
主要有四个大类别,分别是人、常见动物、交通车辆、室内家具用品。主要为图像分类、对象检测识别、图像分割三类任务服务。

COCO数据集

官网:https://cocodataset.org/#home

下载:https://hyper.ai/datasets/4909

COCO(Common Objects in Context)数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。COCO 数据集由微软于 2014 年发布,现已成为图像字幕的标准测试平台

YouTube-8M 数据集

下载:https://hyper.ai/datasets/5531

YouTube – 8M 是一个带标签的大型视频数据集,它由数百万个 YouTube 视频 ID 组成,包含的 3800 多个可视化实体注释均由机器基于词汇表生成,预先计算的特点让其可被用于单硬盘,这也意味着使用单 GPU 在该数据集上训练基线模型成为可能。
同时,数据集的规模和多样性允许用户对复杂的视听模型进行深入探索,即使是分布式训练,也需要花费数周的时间。
该数据集由 Google 于 2016 年发布。

IMDB-WIKI 人脸数据库

下载:https://hyper.ai/datasets/5349

IMDB-WIKI 人脸数据库是一套脸部图像数据集,带有年龄和性别标签的它是迄今为止最大的年龄预测公共数据集。该数据集基于 IMDB 和 Wikipedia 两大数据库,其中 IMDB 数据库包含 460,723 张人脸图片,Wikipedia 数据库包含 62,328 张人脸图片,共计 523,051 张人脸图片,该数据库中每张图片都被标注年龄和性别,这对年龄和性别识别的研究有很大作用。
该数据集由计算机实验室于 2015 年发布,相关论文有《DEX: Deep EXpectation of apparent age from a single image》、《Deep expectation of real and apparent age from a single image without facial landmarks》。

你可能感兴趣的:(深度学习,人工智能,数据库,sklearn,深度学习)