机器学习:常用数据集汇总

前言

    对机器学习中一些常用数据集进行汇总,欢迎评论区提供数据。多多收藏、点赞

    注:其中有些链接是用的他人分享的数据,如果作者不希望这样使用,请私信告诉我,谢谢

 

# pima-indians-diabetes #

    详情:美国国立糖尿病消化与肾病研究所搜集的皮马印第安部落中21岁以上女性的数据。

               样本包括9个特征的768个观测值(768 × 9)。

    下载数据:https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/

 

# 猫狗分类数据集 #

    详情:包括含训练集(25000张猫狗照片)和测试集(12500张猫狗照片)

    下载数据:https://pan.baidu.com/share/init?surl=vS2OsS9lPfkJO-GY3Ju3gw 提取码: vgsy

 

# hotel_bookings #

    详情:该数据集包含城市酒店和度假酒店的预订信息,并包括诸如预订的时间,停留时间,成人,儿童和/或婴儿的数量以及可用停车位的数量等信息

    下载数据:https://pan.baidu.com/s/1WBMEtBzH3fFLtEnz0c-HDg  提取码:9i9e

 

# 成都市出租车GPS记录数据 #

    详情:成都某一天出租车的部分数据。数据记录了成都市部分出租车在载客时的GPS位置和时间等信息

    下载数据:http://labfile.oss.aliyuncs.com/courses/736/taxi.csv

机器学习:常用数据集汇总_第1张图片

 

# BelgiumTS #

    详情:62种交通信号图片

    下载数据:https://btsd.ethz.ch/shareddata/

 

# Spambase #

    详情:垃圾邮件数据

    下载数据:http://archive.ics.uci.edu/ml/datasets/Spambase

spambase.csv

 

# 共享单车数据 #

    详情:美国某公司的共享单车数据

    下载数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00275/

day.csv

 

# 葡萄酒数据集 #

    详情:包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分,可以来推断葡萄酒的起源。

    下载数据:http://archive.ics.uci.edu/ml/datasets/Wine

 

# Gowalla #

    详情:Gowalla是一个基于位置的社交网站,用户可以通过签到来分享他们的位置

          数据分为两部分:

                     loc-gowalla_totalCheckins.txt 签到数据( 6,442,890 )的时间、地点、用户ID

                     loc-gowalla_edges.txt. Gowalla用户(196,591个用户)的社会关系

    下载数据:http://snap.stanford.edu/data/loc-gowalla.html

机器学习:常用数据集汇总_第2张图片 loc-gowalla_totalCheckins.txt

 

# MovieLens #

    详情:MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息[链接]

    下载数据:https://grouplens.org/datasets/movielens/

机器学习:常用数据集汇总_第3张图片 movies.csv 

 

# wholesale-customers #

    详情:批发销售数据集

    下载数据:http://networkrepository.com/wholesale-customers.php

机器学习:常用数据集汇总_第4张图片

 

# 国外数据汇总 #

    国外大神收集的100个大型机器学习数据集

    下载数据:https://www.datasetlist.com/

 

其他

 

详情

训练样本

测试样本

图像大小

MNIST

手写数字数据集

60000

10000

28*28

GTSRB

德国交通标志数据集

39209

12630

15*15~250*250

RRSI

交通路网遥感图像数据集

共30幅

 

ImageNet

超过1500万幅图像、约22000个类别数据集

 

 

 

CIFAR-10

常见物体图像数据集,10类

50000

10000

32*32(彩色)

Oxford-17

鲜花图像数据集,共1360幅、17类

 

 

不同

AR

人脸图像数据集

 

 

 

VOC2007

物体和场景的图像数据集

 

 

 

SIFT Flow

不同场景的图像数据集

2488

200

 

ADE20K

不同场景的图像数据集

20210

2000

 

COCO2014

微软制作的图像数据集

82783

40504+40504(验证集)

 

CelebA

名人人脸图像数据集

162770

19867

 

Gamerecords

围棋棋局文件数据集

4491800

100000

 

你可能感兴趣的:(机器学习)