为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可以随意使用。
1. 通过物理测量判断鲍鱼的年龄
水平:初级
推荐使用:回归模型
领域:生物
这个初级水平数据集有4,177行,9列关于鲍鱼的物理测量值和环数(代表年龄)。鲍鱼的年龄通常由枯燥且耗时的任务决定。因此,这些易于获得的物理测量可用于预测年龄。
链接:https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Abalone
零基础自学大数据开发的小伙伴可以根据小编提供的学习路线图进行学习,分阶段的进行,每个阶段自己做个小项目,这样记忆更深刻,不然跳跃式的学习对于零基础自学大数据有一定的难度,如果对于怎么学习大数据你还不太清楚,你可以加入大数据学习qq群:458345782,对你以后自学大数据会有所帮助的。
2. 预测学生的知识水平
水平:初级
推荐使用:分类/聚合
领域:教育/网页
该数据集有403行和6列。它是关于学生对于电气直流电机知识的真实数据集。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/User%20Knowledge%20Modeling
3. 预测房价
水平:初级
推荐使用:回归模型
领域:房地产
该数据集有414行7列与房屋的各种属性相关,提供了从台湾新北市新店区收集的房地产估价的市场历史数据。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Real%20Estate%20Valuation
4. 从WIFI信号的强弱预测位置
水平:初级
推荐使用:分类模型
领域:移动/定位
这个初学者级数据集有2,000行和8列。该数据是从在室内空间收集的智能手机上的7个wifi设备观察到的wifi信号强度,其可用于估计位置。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Wireless%20Indoor%20Localization
5. 预测汽车的可接受性
水平:初级
推荐使用:分类模型
领域:汽车
该数据集有1,728行和7列,其中汽车属性,如价格和技术,在6个变量中描述为“购买价格”,“维护”和“安全”等。每个变量下有多个替代品。汽车的可接受性是第七个属性,属于结果变量。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Car%20Evaluation
6. 预测精子的质量
水平:初级
推荐使用:回归/分类模型
领域:医疗/人寿
该数据集有10个属性。它包括100名志愿者的精液样本,根据WHO 2010标准进行分析。它可用于确定是否可以在没有实验室方法的情况下进行诊断,其中包括很昂贵的测试。使用问卷调查可以轻松获取该数据集中显示的属性以估计精子浓度。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Fertility
7. 从专家的定性参数评估破产的可能性
水平:初级
推荐使用:分类模型
领域:金融/银行
该数据集有250行和7列。它包含专家认为的6个定性参数,可用于预测破产。
链接:
https://blog.datasciencedojo.com/30-datasets-to-uplift-your-skills-in-data-science/
8. 预测汽车的燃油效率
水平:中级
推荐使用:回归模型
领域:汽车
该数据集有398行,9列,并提供汽车的里程数、马力、车产时间和其他技术规格。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Auto%20MPG
9. 胸痛是否是心脏病的一个指标?
水平:中级
推荐使用:分类模型
领域:健康
该数据集提供了303名患有胸痛且可能患有心脏病的患者的健康检查数据。 该数据集具有14个属性,以确定被诊断患者是否患有心脏病。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Heart%20Disease
10. 预测订单总需求量
水平:中级
推荐使用:回归模型
领域:商业
该中级水平的数据集具有60行和13列。这些数据是在60天内收集的,是巴西物流公司的真实数据库。有12个预测属性和一个目标,即每日的总订单。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Daily%20Demand%20Forecasting%20Orders
11. 预测捐赠者是否会在2007年3月献血
水平:中级
推荐使用:分类模型
领域:商业
该数据集有748个实例和5个属性。这些数据来自台湾新竹市的输血服务中心捐献者数据库。该中心将他们的输血服务巴士开往新竹市的一所大学,每三个月收集一次捐献的血液。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Blood%20Transfusion%20Service%20Center
12. 预测城市的污染水平
水平:中级水平
推荐使用:回归模型
领域:环保
该数据集有43,424行和13列。它包含来自美国驻北京大使馆的PM2.5数据。北京首都国际机场的气象资料也包括在内。该数据集可用于使用提供的空气质量属性进行污染水平预测。它还能实现多变量时间序列预测。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Beijing%20PM2.5
13. 心脏病发后能否活过一年
水平:中级
推荐使用:分类模型
领域:汽车
该数据集有132行和12列。可用于辨别患者是否会在心脏病发作后存活至少一年。数据集中列出的所有患者在过去的某些时候都遭受了心脏病发作。有些人还活着,有些则没有。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Echocardiogram
14. 评估混凝土的抗压强度
水平:中级
推荐使用:回归模型
领域:土木工程
这个集合有1,030行和9列。混凝土是土木工程中最重要的材料。混凝土抗压强度是年龄和成分的高度非线性函数。在特定年限(以“天”为单位)下给定混合物的实际混凝土抗压强度(MPa)由实验室确定。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Concrete%20Compressive%20Strength
15. 肝脏疾病与饮酒的关系
水平:中级
推荐使用:分类/回归/聚类模型
领域:医疗
该数据集有345行和7列。该数据集不包含表示存在或不存在肝脏疾病的变量。前五列代表各种血液测试的结果,这些测试可用于诊断酒精相关的肝脏疾病。第六个代表受试者每天消耗的酒精饮料数量(自我报告)。
零基础自学大数据开发的小伙伴可以根据小编提供的学习路线图进行学习,分阶段的进行,每个阶段自己做个小项目,这样记忆更深刻,不然跳跃式的学习对于零基础自学大数据有一定的难度,如果对于怎么学习大数据你还不太清楚,你可以加入大数据学习qq群:458345782,对你以后自学大数据会有所帮助的。