10个经典的公开数据集+免费下载链接

1、帕尔默企鹅数据集

10个经典的公开数据集+免费下载链接_第1张图片

背景描述

由Kristen Gorman博士和南极洲LTER的帕尔默科考站共同创建,包含344只企鹅的数据。

数据说明

species: 三个企鹅种类:阿德利 巴布亚 帽带

culmen_length_mm: 鸟的嘴峰长度

culmen_depth_mm: 鸟的嘴峰深度

flipper_length_mm: 脚掌长度

body_mass_g: 体重

island: 岛屿的名字

sex: 企鹅的性别

下载链接:帕尔默企鹅数据集


2、MNIST数据集

10个经典的公开数据集+免费下载链接_第2张图片

​经典的手写数字数据集,用于图像分类和识别练习。

2.1 中文数字MNIST

背景描述

由100名中国人亲自用黑笔手写的15个数字

数据说明

15000张 300x300分辨率 64x64大小的图片

下载链接:中文数字MNIST

2.2 Fashion MNIST

背景描述

用于代替原始的MNIST数据

数据说明

包含 60,000 个样本的训练集和一个 10,000 个服装图像的测试集,所有图像都经过尺寸归一化和居中,图像的大小也固定为 28×28

下载链接:Fashion MNIST


3、共享单车

10个经典的公开数据集+免费下载链接_第3张图片

2.1 国内共享单车数据集

背景描述

共享单车数据集

数据说明

训练集(train.csv)和测试集 共近500万条出行记录:

orderid 订单号 userid 用户ID bikeid 车辆ID biketype 车辆类型 starttime 骑行起始日期时间 geohashed_start_loc 骑行起始区块位置 geohashed_end_loc 骑行目的地区块位置

注意:地理位置通过Geohash加密,可以通过开源的方法获得经纬度数据(test.csv)

下载链接:国内共享单车数据集

2.2 共享单车需求

背景描述

华盛顿特区“首都自行车共享计划”,根据自行车共享和租赁系统获取的数据

数据说明

骑行信息:时间、出发地点、到达地点、经过时间、租借总长;

天气信息:当天温度(摄氏度)、风速、湿度;

时间信息:季节、工作日、周末、假期;

下载链接:共享单车需求


4、猫狗图片

10个经典的公开数据集+免费下载链接_第4张图片

包含2千张(猫与狗各1千张)图片,用于机器学习

下载链接:猫狗训练集共2000张


5、威斯康星州乳腺癌(诊断)数据集

10个经典的公开数据集+免费下载链接_第5张图片

背景描述

数据通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来

数据说明

由 569 个样本组成,包括 357 个良性样本和 212 个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息

下载链接:威斯康星州乳腺癌(诊断)数据集


6、葡萄酒数据集

10个经典的公开数据集+免费下载链接_第6张图片

6.1 红葡萄酒

背景描述

数据取自葡萄牙一种红酒品类:Vinho Verde

数据说明

包含11种特征与最终质量评分

下载链接:红酒质量数据

6.2 白葡萄酒

背景描述

来自葡萄牙Vinho Verde产地的白葡萄酒

数据说明

包含葡萄酒的氯化物、柠檬酸、硫酸盐、酒精度、残留糖份等其他属性数据

下载链接:白葡萄酒质量


7、Twitter推文的情绪分析

10个经典的公开数据集+免费下载链接_第7张图片

背景描述

情绪分析用于监控和了解客户反馈

数据说明

包含了使用 Twitter API 提取的 1,600,000 条推文

下载链接:Twitter推文的情绪分析数据集


8、小麦种子数据

10个经典的公开数据集+免费下载链接_第8张图片

背景描述

有趣简单的数据,可代替Iris数据集用来训练分类

数据说明

包含属于三种不同小麦品种的种子信息:Kama、Rosa 和 Canadian。它是一个均衡的数据集,每个类别有 70 个实例。种子内部内核结构的测量值是使用软 X 射线技术检测的

下载链接:小麦种子数据


9、BBC新闻数据

10个经典的公开数据集+免费下载链接_第9张图片

背景描述

BBC新闻进行分类

数据说明

由 2225 篇文章组成,每篇文章都有标签,文章分成 5 个类别:科技、商业、政治、娱乐、体育

下载链接:BBC新闻数据


10、皮马印第安人糖尿病数据集

10个经典的公开数据集+免费下载链接_第10张图片

背景描述

来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病

数据说明

包含 768 个观测值,具有 8 个输入特征和 1 个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为 0

下载链接:皮马印第安人糖尿病数据集

你可能感兴趣的:(公开数据集,Dataset,计算机视觉,深度学习,人工智能,数据库,大数据)