是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
https://archive.ics.uci.edu/ml/datasets/Mushroom
该数据集包括与蘑菇和Lpiota科23种鳃蘑菇相对应的假设样本的描述(第500-525页)。每个物种被确定为绝对可食用,绝对有毒,或未知的可食用性,不推荐。后一类是与有毒的结合起来的。
介绍:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
该数据集包含美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获得的(Http://lib.stat.cmu.edu/datasets/boston),并在整个文献中广泛应用于对算法进行基准测试。然而,这些比较主要是在钻研因此有点可疑。数据集很小,只有506个案例。
Linnerrud 数据集包含两个小的数据集:
运动: 一个包含以下内容的列表:运动数据,关于3个运动相关变量的20个观测值:体重,腰围和脉搏。生理: 一个包含以下内容的数据表:生理数据,关于三个生理变量的20个观测值:下巴,仰卧起坐和跳跃。
官网:http://yann.lecun.com/exdb/mnist/
下载:https://hyper.ai/datasets/4923
MNIST数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片。
下载:https://hyper.ai/datasets/5258
Caltech-101 Dataset 是由 101 个类别的对象图片组成的数据集,它主要用于目标识别和图像分类。不同类别有 40 至 800 张图片,每张图片的大小在 300 * 200 像素,且数据集的发布者均已标注对应的目标以供使用。
下载:https://hyper.ai/datasets/5261
caltech-256 数据集是 caltech-101 数据集的改进版图片数据集
有几处改进: a)类别数量增加一倍以上 b)任何类别中图像的最小数量从 31 增加到 80 c)避免因图像旋转造成的伪影 d)引入了一个新的更大的杂波类别来测试背景拒绝。
该数据集收集了 256 个类的 20607 张图片,由加州理工学院的李菲菲,马克安德烈托和 Marc’Aurelio Ranzato 收集。
介绍:https://www.cnblogs.com/cloud-ken/p/8456878.html
CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像,但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说,五个训练集之和包含来自每个类的正好5000张图像。
介绍:https://www.cnblogs.com/cloud-ken/p/8456878.html
这个数据集就像CIFAR-10,除了它有100个类,每个类包含600个图像。每类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)
介绍:https://cloud.tencent.com/developer/article/1545832
下载:https://hyper.ai/datasets/5669
SVHN Dataset 是一个真实图像数据集,其被用于开发机器学习和对象识别 算法 ,七对数据预处理和格式化的要求很低,该数据集与 MNIST 的特点相似,但是包含更多标记数据的数量级,且来自更加困难、未解决的现实世界问题。
该数据集由斯坦福大学于 2011 年发布,其中数据均采自于 Google 街景图像中的门牌号码,相关论文有《Reading Digits in Natural Images with Unsupervised Feature Learning》。
SVHN(Street View House Number)Dateset 来源于谷歌街景门牌号码,原生的数据集1也就是官网的 Format 1 是一些原始的未经处理的彩色图片,如下图所示(不含有蓝色的边框),下载的数据集含有 PNG 的图像和 digitStruct.mat 的文件,其中包含了边框的位置信息,这个数据集每张图片上有好几个数字,适用于 OCR 相关方向。这里采用 Format2, Format2 将这些数字裁剪成32x32的大小
下载:https://hyper.ai/datasets/4889
ImageNet数据集是一个计算机视觉数据集。该数据集包合 14,197,122张图片和21,841个Synset索引。 Synset是WordNet层次结构中的一个节点,它又是 一组同义词集合。 ImageNet数据集一直是评估图像分类算法性能的基准。
ImageNet Dataset 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测,根据 WordNet 层次 结构 组织,其中每个节点由数百甚至数千张图像描绘,每个节点有平均超过 500 个图像,包含 2.2 万类约 1500 万张图片。
ImageNet Dataset 由斯坦福大学的李飞飞等人于 2009 年在视觉科学学会首次发布,并在 2010 年起的 ImageNet 视觉识别挑战赛(ILSVRC)上不断完善
官网:http://host.robots.ox.ac.uk/pascal/VOC/
下载:https://hyper.ai/datasets/7660
PASCAL VOC DATASET 由 Pascol VOC 项目组于 2012 年发布,其包含往届 PASCAL VOC 挑战赛的成果,同时这项挑战赛也与 2012 年完成最后一届。
PASCAL VOC 大赛是一项世界级 计算机视觉 挑战赛,该挑战赛由 Mark Everingham、Luc Van Gool、Chris Williams、John Winn 和 Andrew Zisserman 发起,并在 2005 至 2012 年期间举办,比赛项目包括图像分类、目标检测、目标分割、人体关节点识别、动作识别几大类。
其中 2012 年最后一次比赛的赛后数据集集中于目标分类和目标检测,该训练集包含 11540 张图片;目标分割的数据集则包含 2913 张图片。
Pascal VOC2012数据集主要是针对视觉任务中监督学习提供标签数据,它有二十个类别:
**Person:**person
Animal: bird, cat, cow, dog, horse, sheep
**Vehicle:**aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
主要有四个大类别,分别是人、常见动物、交通车辆、室内家具用品。主要为图像分类、对象检测识别、图像分割三类任务服务。
官网:https://cocodataset.org/#home
下载:https://hyper.ai/datasets/4909
COCO(Common Objects in Context)数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。COCO 数据集由微软于 2014 年发布,现已成为图像字幕的标准测试平台
下载:https://hyper.ai/datasets/5531
YouTube – 8M 是一个带标签的大型视频数据集,它由数百万个 YouTube 视频 ID 组成,包含的 3800 多个可视化实体注释均由机器基于词汇表生成,预先计算的特点让其可被用于单硬盘,这也意味着使用单 GPU 在该数据集上训练基线模型成为可能。
同时,数据集的规模和多样性允许用户对复杂的视听模型进行深入探索,即使是分布式训练,也需要花费数周的时间。
该数据集由 Google 于 2016 年发布。
下载:https://hyper.ai/datasets/5349
IMDB-WIKI 人脸数据库是一套脸部图像数据集,带有年龄和性别标签的它是迄今为止最大的年龄预测公共数据集。该数据集基于 IMDB 和 Wikipedia 两大数据库,其中 IMDB 数据库包含 460,723 张人脸图片,Wikipedia 数据库包含 62,328 张人脸图片,共计 523,051 张人脸图片,该数据库中每张图片都被标注年龄和性别,这对年龄和性别识别的研究有很大作用。
该数据集由计算机实验室于 2015 年发布,相关论文有《DEX: Deep EXpectation of apparent age from a single image》、《Deep expectation of real and apparent age from a single image without facial landmarks》。