这几个数据分析项目,让我看到了什么才叫专业!!

大家好,我是小一

新的一周又来了,从今天开始,会出一个新的系列《数分实验室》

实验室会介绍一些有内核、有科技的数据分析实战项目。

项目数据集、源代码都是公开的,非常适合想练手但是又没数据、没参考案例的同学

今天先热热身,分享几个之前看到的 数据分析入门项目

1、Airbnb

Airbnb出租数据分析,是一个入门级数分析项目

如果你还没有完整的做过一个数分项目,不妨试试这个

首先项目通过描述性和探索性分析,对每个变量的单维度、多维度表现进行对比和探索

后续针对特征提出了一些对未来决策有用的假设,用于辅助Airbnb提供更多的服务。

项目中使用了一些比较 常见的统计技术,例如:变量分类、频率分布表、直方图、中心趋势测量等。

也不难,基本学过数学的都会

房间类型的频率分布

这几个数据分析项目,让我看到了什么才叫专业!!_第1张图片

价格和最小夜数的中心趋势

这几个数据分析项目,让我看到了什么才叫专业!!_第2张图片

平均价格最高的10个小区分布

这几个数据分析项目,让我看到了什么才叫专业!!_第3张图片

因为提供的数据中有经纬度字段,而通过经纬度来探索价格、最低住宿时间和房间类型,又是一个比较有效的策略

图形使用 ggplot2 创建,其实也可以使用其他的工具,例如:plotly、seaborn等

基于经纬度的地理分布

这几个数据分析项目,让我看到了什么才叫专业!!_第4张图片

这几个数据分析项目,让我看到了什么才叫专业!!_第5张图片

项目地址:

https://www.kaggle.com/code/upadorprofzs/understand-your-data-airbnb-reservations

2、Craigslist-EDA

Craigslist二手车销售数据分析,预测汽车价格是否被高估或低估。

数据里面包含了二手车的价格、状况、制造商、经纬度等一共18个字段。

在数据探索中,也是通过 常规的方法,例如:数据预处理、特征工程、特征提取和特征选择

特征变量的分布用到了散点图、密度图、箱型图等等

这种多子图的绘图方式比较好,大家可以多参考这种形式,能节省很多绘图时间

这几个数据分析项目,让我看到了什么才叫专业!!_第6张图片
这几个数据分析项目,让我看到了什么才叫专业!!_第7张图片

项目地址:

https://www.kaggle.com/code/nareshbhat/data-visualization-in-just-one-line-of-code/notebook

3、Craigslist-SWEETVIZ

如果说,上面对二手车销售数据分析你不满意,觉得比较复杂

那自动化数据探索工具就很有必要了解一下了

项目中用了 sweetviz 的 analyze 方法,一行代码直接出分析报告,真的很强大了

安装起来也比较简单

!pip install sweetviz

调用的时候直接两行代码完事:

report = sweetviz.analyze([train,'train'],target_feat='Survived')
report.show_html('report.html')

运行的结果是这样的:

这几个数据分析项目,让我看到了什么才叫专业!!_第8张图片

这几个数据分析项目,让我看到了什么才叫专业!!_第9张图片
这几个数据分析项目,让我看到了什么才叫专业!!_第10张图片

在实际中,我们往往要花很多时间去清理脏数据,这个包其实就可以让你在清理数据之前,快速了解一下数据的情况,还是很省时省力的。

项目地址:

https://www.kaggle.com/code/nareshbhat/eda-within-snap-of-fingers?scriptVersionId=68900634

4、收尾

虽然我称之为入门,但是要实际研究下来,没个三五天,可能真的吃不透

但是如果能研究透了,后面遇到类似的项目,也是 一招鲜、吃遍天

今天就聊这么多吧,我是小一,我们下期见~

原文链接:这几个数据分析项目,让我看到了什么才叫专业!!

你可能感兴趣的:(数据实战项目,数据分析,Python,数据分析,人工智能,数据挖掘)