1.关于Airbnb New User Booking 的分析——数据观察

前言

最近开始第一个数据分析的实战项目,项目为kaggle比赛中的Airbnb New User Booking 项目,该篇主要做数据观察用。所用的数据下载链接:Airbnb New User Booking 数据集,因为我最近很缺CSDN的积分,所以下载需要2积分,如果你没有积分,请留言。

以下开始具体的分析过程,所有代码都是使用Jupyter notebook 完成的。我没看到可以插入代码片段的地方,所以基本都用图片来展示过程,文章最后我把所有代码片段放到txt文件里,以供参考。

分析开始

1.关于Airbnb New User Booking 的分析——数据观察_第1张图片
首先引用一些相关包,并导入数据集  
1.关于Airbnb New User Booking 的分析——数据观察_第2张图片
观察数据集中各个字段的含义

查看数据集的shape,各有多少行多少列


数据集的shape

查看各字段类型是否合理。 注意: 1.date_first_booking,有三分之二是空的,可能考虑删除 ;2.date_account_created,应该是时间类型比较好 3.timestamp_first_active,应该是时间类型比较好

1.关于Airbnb New User Booking 的分析——数据观察_第3张图片
分析各字段间相差了多少

查看各字段空值情况,图中结果显示不完全,可以看到有几个字段空值很大

1.关于Airbnb New User Booking 的分析——数据观察_第4张图片
查看各字段空值情况


1.关于Airbnb New User Booking 的分析——数据观察_第5张图片
查看两个数据集有哪些不一样的字段
1.关于Airbnb New User Booking 的分析——数据观察_第6张图片
train数据集的dtypes

下面针对数据集各个字段进行分析:

1.关于Airbnb New User Booking 的分析——数据观察_第7张图片
首先对date_account_created进行分析

查看两个集的最大最小时间:

1.关于Airbnb New User Booking 的分析——数据观察_第8张图片
二者以14年6月末为分割
1.关于Airbnb New User Booking 的分析——数据观察_第9张图片

date_account_created

1.关于Airbnb New User Booking 的分析——数据观察_第10张图片
date_account_createdte特点散点图

timestamp_first_active

1.关于Airbnb New User Booking 的分析——数据观察_第11张图片
timestamp_first_active特点分析

date_first_booking

1.关于Airbnb New User Booking 的分析——数据观察_第12张图片
date_first_booking特点分析

Age散点图,柱状图

1.关于Airbnb New User Booking 的分析——数据观察_第13张图片
年龄与数量分布图
1.关于Airbnb New User Booking 的分析——数据观察_第14张图片
年龄段数量柱状图
1.关于Airbnb New User Booking 的分析——数据观察_第15张图片
画特点柱状图方法

gender 与 signup_method的柱状图

1.关于Airbnb New User Booking 的分析——数据观察_第16张图片
各个特点分别画图,这里只画了两个特点

所有特点柱状图集合,这里展示不全

1.关于Airbnb New User Booking 的分析——数据观察_第17张图片

代码下载地址:https://pan.baidu.com/s/1_rR-K4t-ghgNMxuds1MsPw

你可能感兴趣的:(1.关于Airbnb New User Booking 的分析——数据观察)