全文共2542字,预计学习时长11分钟
图源:unsplash
有些人可能快要或者已经开学了,但有些人的“居家令”遥遥无期。当世界恢复如常,你打算从隔离期里带出什么?躺了三个月养出的小肚腩吗?不妨花些时间学习新技能、读书和提高自己。
对于那些对数据分析或数据科学感兴趣的人,本文提供了一份在业余时间可以做的十四个数据科学项目的清单,兼具趣味、技能和价值,快来试试吧。
数据可视化或许是最快完成的项目,下面三个数据集可用于创建一些有趣的可视化效果,以添加到投资组合中。
冠状病毒可视化
难度:容易
数据集:https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
Plotly是一个了不起的库,它使数据可视化动态化,有吸引力且简单。试试使用Plotly构建动态可视化,展示冠状病毒如何在全球范围内传播。
地表温度可视化
难度:中等
数据集:https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
气候变化无可否认。你可以创建一些数据可视化效果,以显示地表温度如何随时间变化。可以通过创建折线图或其他动态的Choropleth贴图来实现。
澳大利亚山火可视化
难度:容易
数据集:https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
图源:unsplash
2019-2020年的森林火灾季,也称为“黑色夏天”,始于2019年6月开始的几起严重的山火。据维基百科统计,大火烧毁了1860万公顷土地和5900多座建筑。
你可以利用数据可视化技能,使用Plotly或Matplotlib显示山火的强度和地理影响。
探索性数据分析(EDA),也称为数据探索,是数据分析过程中的一个步骤,其中使用了多种技术来更好地理解所使用的数据集。
酒精与学业成就
难度:简单
数据集:https://www.kaggle.com/uciml/student-alcohol-consumption
图源:unsplash
饮酒会影响学生的成绩吗?这项数据是从一项对中学数学和葡萄牙语课程的学生进行的调查中获得的。它包含几个变量,例如饮酒量、家庭人数、参与课外活动情况。
利用这一点,探索学校成绩与各种因素之间的关系。还可以看看是否可以根据其他变量来预测学生的最终成绩。
影响员工流失和绩效的最重要因素
难度:容易
数据集:https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
IBM创建了一个综合数据集,可以用来了解各种因素如何影响员工的流失和满意度。其中一些变量包括教育程度、工作投入、绩效评估和工作与生活的平衡。
探索此数据集,查看是否有任何确实影响员工满意度的重要变量。此外,看看是否可以将变量根据重要性进行排序。
世界大学排名
难度:容易
数据集:https://www.kaggle.com/mylesoneill/world-university-rankings
你的国家有世界上最好的大学吗?成为“最好”的大学意味着什么?该数据集包含三个全球大学排名。利用这些数据,回答以下问题:
· 顶尖大学在哪些国家?
· 决定一个大学的世界排名的主要因素是什么?
精灵宝可梦数据探索
难度:容易
数据集:https://www.kaggle.com/rounakbanik/pokemon
图源:unsplash
这个数据集包含有关所有七代802种精灵宝可梦的信息,去试试回答下面的问题:
· 哪一代精灵宝可梦最强?哪一代最弱?
· 哪一种精灵宝可梦最强?哪一种最弱?
· 是否可以建立分类器来识别传奇的精灵宝可梦?
· 身体特征与力量状态(进攻、防守、速度等)之间是否有关联?
探索影响预期寿命的因素
难度:容易
数据集:https://www.kaggle.com/kumarajarshi/life-expectancy-who
世卫组织建立了特定时间内所有国家健康状况的数据集,其中包括预期寿命、成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系。对预期寿命的最大影响是什么?
图源:unsplash
创建该数据集是为了回答以下问题:
· 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量是什么?
· 预期寿命值低(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?
· 教育对人类寿命有何影响?
· 预期寿命与饮酒有正面还是负面的关系?
· 人口稠密的国家的预期寿命是否趋于降低?
· 婴儿和成人死亡率如何影响预期寿命?
· 预期寿命与饮食习惯、生活方式、运动、吸烟、饮酒等有正相关还是负相关?
· 免疫接种覆盖率对预期寿命有何影响?
纽约Airbnb数据探索
难度:中等
数据集:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
自2008年以来,Airbnb让旅行拥有了更多可能性,提供了更多个性化的体验世界的方式。该数据集包含有关2019年纽约的住宿信息以及其地理信息、价格、评论数量等。
可以尝试回答以下一些问题:
· 哪些房东最忙,为什么?
· 哪些区域的交通流量比其他区域大,为什么会这样?
· 价格、评论数量和给定住宿的预订天数之间是否存在关系?
贷款预测
难度:容易
数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/
图源:Unsplash
取自AnalyticsVidhya,该数据集为615行和13列有关已批准和尚未批准的过去贷款的信息。看看是否可以创建一个模型来预测贷款是否会获得批准。
二手车价格估算器
难度:中等
数据集:https://www.kaggle.com/austinreese/craigslist-carstrucks-data
图源:unsplash
Craigslist是全球最大的二手车交易网站。该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,看看是否可以创建一个数据集来预测汽车售价是高还是低。
能源消耗的时间序列预测
难度:中高级
数据集:https://www.kaggle.com/robikscube/hourly-energy-consumption
该数据集由PJM网站上的功耗数据组成。PJM是美国的区域传输组织。使用此数据集,查看是否可以构建时间序列模型来预测能源消耗。除此之外,看看是否可以找到一天中各个小时的能耗趋势、假日用电量以及长期能耗趋势。
检测信用卡欺诈
难度:中高级
数据集:https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
图源:unsplash
该数据集显示了两天内发生的交易,其中284807笔交易中有492笔欺诈。数据集高度不平衡,阳性类别(欺诈)占所有交易的0.172%。了解如何使用不平衡的数据集并建立信用卡欺诈检测模型。
皮肤癌图像检测
难度:高级
数据集:https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000
图源:Unsplash
本数据集包含超过10000张图像,看看是否可以构建神经网络来检测皮肤癌。这绝对是最困难的项目,需要有关神经网络和图像识别的广泛知识。
从易到难,就好像闯关一样,完成这14个项目,你绝对会“功力猛增”。莫负春光,赶快试试吧。
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)