Kaggle-共享单车项目分析

项目链接:Bike Sharing Demand | Kaggle

思路:1.认识数据

           2.特征工程

           3.建模并预测

首先,是一个关于自行车租赁预测的题目,Kaggle提供的训练数据是一个月前19点的使用情况,需要预测20天之后的使用情况,数据从Kaggle中下载。

数据共有12列,12个属性的意义如下:


Kaggle-共享单车项目分析_第1张图片
属性的含义

读入训练数据



Kaggle-共享单车项目分析_第2张图片
导入库和读入数据
Kaggle-共享单车项目分析_第3张图片
训练数据总览

12列数据,并且数据没有缺失值。


Kaggle-共享单车项目分析_第4张图片
测试数据总览

测试数据一共有9列,没有缺失值。

为了方便后面做特征工程,将训练数据和测试数据拼接起来。

数据中给出的datetime是例如2011-01-01 00:00:00这样的格式的,为了分析数据,需要将时间分割出月、日、几时


Kaggle-共享单车项目分析_第5张图片
代码


Kaggle-共享单车项目分析_第6张图片
按月份来看用量


Kaggle-共享单车项目分析_第7张图片
按小时用量

根据小时用量可以将时段分为5个:0~7,7~10,10~15,15~20,20~24


Kaggle-共享单车项目分析_第8张图片
Kaggle-共享单车项目分析_第9张图片
各月自行车用量


Kaggle-共享单车项目分析_第10张图片
按星期和小时查看骑行情况

按季节查看骑行情况


Kaggle-共享单车项目分析_第11张图片
按季节的用量情况

每个季节每天的使用情况


Kaggle-共享单车项目分析_第12张图片
每个季节每天的使用情况


Kaggle-共享单车项目分析_第13张图片
工作日与骑行情况

天气与骑行情况


Kaggle-共享单车项目分析_第14张图片
天气与骑行量

随着天气恶劣,自行车用量也在逐渐减少,天气是一个很好的特征。


Kaggle-共享单车项目分析_第15张图片
温度与用量

确实40度的使用情况,41度那么热,可是用量却非常大,可能数据有些异常

各特征相关系数



Kaggle-共享单车项目分析_第16张图片
各特征相关系数

由上图看出,注册用户和非注册用户的自行车使用量相差挺多的,非注册用户的相关系数是0

.69,而注册用户的相关系数为0.97


Kaggle-共享单车项目分析_第17张图片
注册用户用量


Kaggle-共享单车项目分析_第18张图片
非注册用户

剔除离群点


Kaggle-共享单车项目分析_第19张图片

这是一个回归问题,如果目标值服从正态分布比较好,原数据不符合正态分布,需要进行处理

Kaggle-共享单车项目分析_第20张图片
原数据


Kaggle-共享单车项目分析_第21张图片
处理后

虽然不是标准的正态分布,但比原来的数据看上去好一些。


Kaggle-共享单车项目分析_第22张图片


Kaggle-共享单车项目分析_第23张图片
结果

代码地址:GitHub - missbai119/Code






你可能感兴趣的:(Kaggle-共享单车项目分析)