数据可视化之共享单车需求可视化分析

1 共享单车项目

1.1 收集数据:

数据下载自Kaggle

Bike Sharing Demand | Kaggle​www.kaggle.com

去年共享单车项目在国内大热,五颜六色的单车一夜之间遍布城市的各个角落。其实,早在3年前国外就有类似的项目兴起,并在Kaggle上提出项目:通过历史用车记录结合天气等数据预测共享单车项目在华盛顿的需求

1.2数据的特征解释

1.3提出假设

这里我们将研究决定单车租借的因素,上面给出了各个特征的解释,首先我们先大胆的提出假设:

1.租借数量可能时间有关

2.租借数量可能与天气的好坏有着很大的联系

3.租借的数量与是否为工作日有关

4.租借的数量可能与风速有关

2.数据的初步认识

2.1数据的导入和查看

2.2查看有无缺失值和数据类型的情况

发现并无缺失值,不过时间的数据类型是object 需要转化为时间类型,同时为了更方便的分析数据,将datetime拆为 Year Month Weekday Hour

2.3查看一下各个特征的相关性

可以看出与count正相关最大的是temp 和atemp,holiday的相关性最小

3.1数据的可视化

为了更直观的表现出数据的背后意义,我们需要用可视化来做辅助,首先将上述的相关系数的数据可视化为热力图的呈现方式

是不是较之前更加直观,也方便我们后续的分析

3.2查看2011-2012间的单车租借情况

1.图一是2011-2012年的每月租借情况,较去年租借数量,2012同比上升较大,图示2012的面积是2011的2倍以上,各月的增长情况相类似,特别11-12月份成下坡趋势,猜测可能是温度的原因,季节属于冬季

2.图二是节假日和非节假日的租借数量的箱形图,不难看出,租借的数量的离散型情况相似。

3.图三是每星期的离散情况,周末有异常值,数量并不是很多,可能与活动有关,增加了出行的人数

上述两图分别是季节和工作日的线形图

1.图一中,各季节的租借趋势相同,同时秋季最高,春季最低,租借的高峰时间7-9和16-18点正好是早晚高峰时间

2.图二也呈现出形式的趋势,在工作日租借的高峰时间7-9和16-18点,同时与此相反,非工作日,11-16点的租借人数最高,符合睡觉睡到自然醒。

附上代码

3.3天气对于租借数量的影响

上述两图分别是4中天气情况下的租借总数,平均数和不同风速下的租借总数,平均数

1.晴天多云的租借总数最多平均数也最多,天气越好租借的概率越大,大雨大雪的租借平均数反倒上升,取出这个天气下的数据,发现只有一例,为特殊情况,不予分析

2.风速对于租借的影响还是很大的,风速超过25就少有租借情况,毕竟骑起来太累了,风速在10以下租借情况良好,同时当风速超过25后,平均租借数量上升,图中也能看出这种情况下的租借数量很少,不做考虑

3.4湿度与温度对于租借数量的影响

上述两图为温度与湿度对于租借情况的影响,温度和租借数量呈现正相关,湿度呈现负相关,租借数量在15-30度适应性最好,30度到35度租借数量没有低于100的情况,不多租借的数量不是很多,颜色较浅,湿度在30-60适应性最好

3.5探索非注册和注册对于租借数量的影响

首先分别查看注册和非注册特征下每个时间段的租借情况,发现注册的用户的时间曲线的两个高峰段为早晚上下班高峰,因为是每日固定出行需要,上下班的用户普遍为注册用户

图二是每个星期的租借情况,这里有个很有趣的现象,注册用户周末租借量减少而非注册用户租借量增加,非注册用户看来大部分都是没有固定出行需求的。

总结:

通过以上的可视化分析,我们可以清晰的发现印象租借数量的因素

1.温度对于租借的影响较大,15-30度间,租借数量最多,呈正相关

2.湿度在30-60的时候租借数量最大,呈负相关

3.早晚高峰时间段租借数量最多

4.早晚高峰时间段租借的用户较多为注册用户,注册用户周末租借量减少,相反,非租借用户周末租借量增加

5.天气情况和风速对于租借也有较大的影响,晴天租借最多,大雨大雪租借最少,风速在10以下租借的数量最多

6.共享单车前景良好,12较11年租借数量有增加2倍之多

学习资料点击这里

你可能感兴趣的:(数据可视化之共享单车需求可视化分析)