【Dataset】UCI

文章目录

          • 【一】 Adult(Classification - 美国人口普查年收入50K分类)
          • 【二】 Iris(Classification - 鸢尾花分类)

 


 

【一】 Adult(Classification - 美国人口普查年收入50K分类)

 

简述:针对美国某区域的一次人口普查结果,可以用来预测居民收入是否超过 50K,分为训练集(adult.data)和测试集(adult.test
注意1workclassoccupationnative_country 含有部分 缺失值
注意2:数据存在以下情况: 1.不缺失;2.都缺失;3.只缺失 occupation;4.只缺失 native_country;5.同时缺失 workclassoccupation

 

  • 下载】:官网链接
     
  • 属性
序号 字段名 含义 类型
0 age 年龄 double
1 workclass 工作类型 string
2 fnlwgt 序号 string
3 education 教育程度 string
4 education_num 受教育时间 double
5 maritial_status 婚姻状况 string
6 occupation 职业 string
7 relationship 关系 string
8 race 种族 string
9 sex 性别 string
10 capital_gain 资本收益 string
11 capital_loss 资本损失 string
12 hours_per_week 每周工作小时数 doule
13 native_country 原籍 string
14(label) income 收入 string

 

  • 格式
age workclass fnlwgt education education_num maritial_status occupation relationship race sex capital_gain capital_loss hours_per_week native_country income
49 Private 160187 9th 5 Married-spouse-absent Other-service Not-in-family Black Female 0 0 16 Jamaica <=50K
52 Self-emp-not-inc 209642 HS-grad 9 Married-civ-spouse Exec-managerial Husband White Male 0 0 45 United-States >50K

 


 

【二】 Iris(Classification - 鸢尾花分类)

 

简述:鸢尾花数据集共收集了三类鸢尾花,即 Setosa 鸢尾花、Versicolour 鸢尾花和 Virginica 鸢尾花,每一类鸢尾花收集了 50 条样本记录,共计 150 条

 

  • 下载】:官网链接
     
  • 属性
序号 字段名 含义 类型
0 sepal_length 萼片长度 double
1 sepal width 萼片宽度 double
2 petal length 瓣片长度 double
3 petal width 瓣片宽度 double
4(label) calss 类别 string

 

  • 格式
萼片长度 萼片宽度 瓣片长度 瓣片宽度 类别
5.4 3.9 1.7 0.4 Iris-setosa
7.0 3.2 4.7 1.4 Iris-versicolor
6.3 3.3 6.0 2.5 Iris-virginica

 

你可能感兴趣的:(Dataset)