对机器学习中一些常用数据集进行汇总,欢迎评论区提供数据。多多收藏、点赞
注:其中有些链接是用的他人分享的数据,如果作者不希望这样使用,请私信告诉我,谢谢
详情:美国国立糖尿病消化与肾病研究所搜集的皮马印第安部落中21岁以上女性的数据。
样本包括9个特征的768个观测值(768 × 9)。
下载数据:https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/
详情:包括含训练集(25000张猫狗照片)和测试集(12500张猫狗照片)
下载数据:https://pan.baidu.com/share/init?surl=vS2OsS9lPfkJO-GY3Ju3gw 提取码: vgsy
详情:该数据集包含城市酒店和度假酒店的预订信息,并包括诸如预订的时间,停留时间,成人,儿童和/或婴儿的数量以及可用停车位的数量等信息
下载数据:https://pan.baidu.com/s/1WBMEtBzH3fFLtEnz0c-HDg 提取码:9i9e
详情:成都某一天出租车的部分数据。数据记录了成都市部分出租车在载客时的GPS位置和时间等信息
下载数据:http://labfile.oss.aliyuncs.com/courses/736/taxi.csv
详情:62种交通信号图片
下载数据:https://btsd.ethz.ch/shareddata/
详情:垃圾邮件数据
下载数据:http://archive.ics.uci.edu/ml/datasets/Spambase
详情:美国某公司的共享单车数据
下载数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00275/
详情:包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分,可以来推断葡萄酒的起源。
下载数据:http://archive.ics.uci.edu/ml/datasets/Wine
详情:Gowalla是一个基于位置的社交网站,用户可以通过签到来分享他们的位置
数据分为两部分:
loc-gowalla_totalCheckins.txt 签到数据( 6,442,890 )的时间、地点、用户ID
loc-gowalla_edges.txt. Gowalla用户(196,591个用户)的社会关系
下载数据:http://snap.stanford.edu/data/loc-gowalla.html
详情:MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息[链接]
下载数据:https://grouplens.org/datasets/movielens/
详情:批发销售数据集
下载数据:http://networkrepository.com/wholesale-customers.php
国外大神收集的100个大型机器学习数据集
下载数据:https://www.datasetlist.com/
|
详情 |
训练样本 |
测试样本 |
图像大小 |
MNIST |
手写数字数据集 |
60000 |
10000 |
28*28 |
GTSRB |
德国交通标志数据集 |
39209 |
12630 |
15*15~250*250 |
RRSI |
交通路网遥感图像数据集 |
共30幅 |
|
|
ImageNet |
超过1500万幅图像、约22000个类别数据集 |
|
|
|
CIFAR-10 |
常见物体图像数据集,10类 |
50000 |
10000 |
32*32(彩色) |
Oxford-17 |
鲜花图像数据集,共1360幅、17类 |
|
|
不同 |
AR |
人脸图像数据集 |
|
|
|
VOC2007 |
物体和场景的图像数据集 |
|
|
|
SIFT Flow |
不同场景的图像数据集 |
2488 |
200 |
|
ADE20K |
不同场景的图像数据集 |
20210 |
2000 |
|
COCO2014 |
微软制作的图像数据集 |
82783 |
40504+40504(验证集) |
|
CelebA |
名人人脸图像数据集 |
162770 |
19867 |
|
Gamerecords |
围棋棋局文件数据集 |
4491800 |
100000 |
|