机器学习数据集

数据集下载地址:http://archive.ics.uci.edu/ml/

列出里面的top4如下:

Iris

也称鸢尾花数据集,一种多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

数据集特征: 多变量 记录数: 150 领域: 生活
属性特征: 实数 属性数目: 4 捐赠日期 1988-07-01
相关应用: 分类 缺失值? 网站点击数: 958632

Adult

该数据是从美国1994年人口普查数据库抽取而来,可用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,包含年龄、工种、学历、职业、人种等14个属性变量,其中有7个类别型变量。

数据集特征: 多变量 记录数: 48842 领域: 社会
属性特征: 类别型,整数 属性数目: 14 捐赠日期 1996-05-01
相关应用: 分类 缺失值? 网站点击数: 671070

Wine

这份数据集包含3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。所有属性变量都是连续变量。

数据集特征: 多变量 记录数: 178 领域: 物理
属性特征: 整数,实数 属性数目: 13 捐赠日期 1991-07-01
相关应用: 分类 缺失值? 网站点击数: 527217

Car Evaluation

一个关于汽车测评的数据集,类别变量为汽车的测评,包括unacc,ACC,good,vgood(分别代表不可接受,可接受,好,非常好),6个属性变量分别为买入价、维护费,车门数、可容纳人数、后备箱大小、安全性,均为有序类别变量,如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」

数据集特征: 多变量 记录数: 1728 领域: N/A
属性特征: 类别型 属性数目: 6 捐赠日期 1997-06-01
相关应用: 分类 缺失值? 网站点击数: 527217

注:

当需要试验较大量的数据时,可以使用「Adult」;
当想研究变量之间的相关性时,选择变量值只为整数或实数的「Iris」和「Wine」;
当想研究logistic回归时,可选择类变量值只有两种的「Adult」;
当想研究类别变量转换时,可选择属性变量为有序类别的「Car Evaluation」



你可能感兴趣的:(数据库,机器学习)