还记得最初见到摩拜单车的模样么?来看看Tableau讲述摩拜初期发展故事

项目背景

当代社会的发展理念里流行一种模式叫做“共享经济”,提起这个词,大家肯定会立刻联想到共享单车吧。曾几何时,当你出门在外的时候,经常会看到路边齐刷刷停了一排五颜六色的共享单车。而在所有的共享单车里,我对摩拜一直以来都有一种莫名的好感,因为在它初在上海运营的时候我们就因为机缘相遇相识了,而接着在我出差日本三个月回来之后它已经无处不在了。当我回国的时候正好是2016年8月,摩拜也恰巧在这个月收获了B轮融资,我很好奇这段时间它在上海这座城市是如何收获人们的芳心,得到迅速发展的。为此,需要获取到相关的摩拜使用数据来展开数据分析。幸运的是,在Udacity报名学习了数据分析(进阶)纳米学位课程,其中最后一个项目实践中就包含了来源于上海SODA比赛的摩拜样本数据,下面就开始用摩拜数据讲故事~

项目简介

本项目基于上海城区2016年8月随机抽样的百万条摩拜单车使用数据,利用Tableau工具进行探索可视化分析,从中发现一些有趣的现象或趋势。

数据来源和数据集

本项目使用的数据集来源于上海SODA比赛样本数据,该数据集为摩拜提供的上海城区2016年8月随机抽样百万条用户使用数据,包含以下字段:起点经纬度、终点经纬度、开始时间、结束时间、用户ID、车辆ID、交易编号。

目的

主要希望透过摩拜使用数据,发现用户使用规律,从而了解摩拜单车得以快速发展的原因,进一步思考还可以做些什么。

针对摩拜使用回答以下几个问题:

1. 订单量、单车数和用户数的日变化?24小时订单量变化?

2. 骑行起点的时空分布?

3. 用户(不活跃用户、活跃用户、粘性用户)分布概况?

4. 车辆(新单车、老单车、超级单车)分布概况?

5. 骑行距离分布?

6. 骑行时间分布?

技能工具

本项目使用的工具以Tableau为主,Python为辅。Tableau用于可视化分析和故事呈现,Python用于清洗处理经纬度数据以及计算额外有效字段等。

可视化分析

订单量、单车数和用户数的日变化?24小时订单量变化?

时间序列维度

分析思路:首先从时间维度入手,观察摩拜单车骑行整体概况。由于感兴趣的时间分层有天、周、工作日/周末、小时等,所以依次查看了对应时间的订单量。其中周这一层级比较特殊,因为将8月份按周划分以后,并不能保证每一周都有完整的7天,所以对比周订单量不太合适,因此在可视化展示中放弃了该维度。

在展示日变化的时候,我将订单量、单车数、用户数放在一起横向对比分析,并绘制了趋势线,发现三者均呈快速增长趋势,不过从增速看,用户数增长相对慢于订单量和单车数。换句话说,骑行订单量的快速增长有一部分是老用户贡献的。

下一步,我将工作日/周末和24h放在一起纵横对比分析,订单量用热力图展示(注:这里考虑对红绿色弱视群体的友好,特意使用了蓝橙色调色板),可以发现工作日上下班高峰期骑行订单量激增,早高峰在7~8点,晚高峰在17~19点。特别注意到一点,星期三的18点骑行订单量最多,说明大家这一天都不倾向于加班,而是早早下班。周末订单量没有出现早高峰,可能是因为大家的节假日作息规律不一致,因此出行时间不一致,不过到了晚上18~19点订单量却多了起来,也许这时候有些人准备回家吃饭,也有些人准备出门约会聚餐……感兴趣的童鞋其实可以继续探索下这时候的人们都骑车去哪些地方了。遗憾的是,我没能找到详细街道地图数据文件,以后有时间再作分析。

总而言之,2016年8月摩拜单车在上海进入快速发展期,订单量、单车数、用户数均快速增长。其次,摩拜使用伴随着非常明显的工作日上下班高峰,说明上班族成为共享单车的重要用户群体之一

骑行起点的时空分布?

观看动态播放效果请点击这里~

分析思路:根据起点经纬度可以结合时间维度分析骑行起点的时空分布,为了能在地图上显示上海市各行政区域,我从网上找了上海市市辖区的空间文件[1],并根据原始数据中的起点经纬度通过API得到了地区名称和地区编码[2],通过连接这几个文件,可以在可视化中看到整个月骑行起点的空间分布,然后分别结合天、小时维度,可以用动画播放骑行起点随时间变化的动态空间分布。

从整个月的骑行地图上可以看到,主要集中在市区杨浦区最多。原因可能是这里有五角场大学城,也可能是因为这里新投放的单车数多。要验证前者需要有详细街道地图,前面已解释过,所以这里没有作进一步探讨。而要验证后者我后面会再分析车辆分布概况。

通过日订单和24h订单地图的动态播放,可以发现我们在前面分析时相同的趋势,即订单量逐日增多上下班高峰期订单量增多

整体来看,摩拜走的是“以市区为中心”的路线,尤其在几个老城区非常受欢迎。在一定程度上,其实摩拜订单量可以反映“客流量”, 如今“流量”一词在互联网行业大行其道,流量大的地方商机自然也大,比如店铺选址、广告宣传等等。

用户(不活跃用户、活跃用户、粘性用户)分布概况?

用户维度

分析思路:这里的用户属性我想到的是按整个月内同一个用户ID的骑车次数来划分:

a. 不活跃用户(骑车1次)

b. 活跃用户(骑车2~10次)

c. 粘性用户(骑车>10次)

用户分组以后,我想知道这个月内不同用户每日使用摩拜单车的情况,于是绘制了面积图,发现活跃用户(骑车2~10次)在整个月中对摩拜发展的贡献最大,其次是粘性用户(骑车>10次),最后是不活跃用户(骑车1次)

此外,我还想知道这几类用户的地区分布,于是使用了小多组图,发现杨浦区周围的活跃用户贡献最多,而奉贤区没有不活跃用户,可能是由于奉贤区本身订单量很少的缘故。

一句话总结:活跃用户作为整个月促进摩拜发展的主力军,尤其是杨浦区周围的活跃用户。这里需要说明的是,由于原始数据中有关用户信息的字段只有用户ID,所以只是简单地按骑车次数来做用户划分,分析结论存在一定的局限性。以后有机会的话可以搜集更多关于用户的字段来建立有趣的用户画像。

车辆(新单车、老单车、超级单车)分布概况?

车辆维度

分析思路:车辆属性我想到的是按整个月内同一个车辆ID被骑的次数划分:

a. 新单车(被骑1次)

b. 老单车(被骑2~10次)

c. 超级单车(被骑>10次)

车辆分组以后,和用户分组类似,我想知道这个月被骑的摩拜单车是新车多还是旧车多,以及各地区使用新旧摩拜单车的分布,于是我同样绘制了面积图和小多组图,发现这个月里有大量新单车被投放使用其次是老单车,最后是我划分出的一类特殊单车,我定义为“超级单车”,就是被骑次数超过了10次的单车。

从空间分布图上,发现杨浦区的新单车投放被使用的最多,而“超级单车”在哪里呢?这位“元老”在徐汇区!

这个结果反映出:新单车的大量投放显著增加了摩拜单车的使用。这里同样需要说明的是,由于原始数据中有关车辆信息的字段只有车辆ID,按被骑次数划分的做法并不太严谨,被骑次数只有1次的不一定都是刚投放的新单车,也有可能是这个月刚被骑了1次就成了故障车,再也没有被“宠幸”过,所以分析结论存在一定的局限性。

骑行距离分布?

距离维度

分析思路:根据原始数据中的起点和终点经纬度,我利用经纬度距离公式计算了起终点之间的距离,并按距离长短进行以下分组:

a. <1km

b. 1~3km

c. 3~10km

d. 10~50km

e. >50km

分组以后,我先总体计算了各组订单量占比,绘制了横向条形图,发现最多的是1~3km其次是<1km,验证了共享单车发明的初衷“解决最后一公里”。接着我筛选出距离<3km的订单想用填充气泡图比较下起点分布地区,发现仍然是以杨浦区为首的几个老城区分布最多。

下面按距离分组分别查看日订单量和24h订单量情况,依然发现人们的需求都集中于解决3km以内的路程问题

这个结果不禁让人反思,在没有共享单车之前,人们对于3km以内的路程一般有以下几种选择:公交+步行、地铁+步行、纯步行等,这几种方式无疑会耗费较多的时间成本,而在有了共享单车以后,可以明显减少等待公共交通和缓慢步行的时间,让人们能在有限的时间里到达更多的地方完成更多的事。因此,摩拜之所以能迅速崛起,很大程度上是因为它为人们赢得了更多的时间而时间是无法用价值来衡量的

再次需要说明的是,这里为了便于分析,骑行距离用起点和终点之间的直线距离来近似的做法并不严谨,现实中绕行是十分普遍的。如果可以将单车在途中上报的多个位置经纬度信息结合计算,应该可以得到相对精确的结果。

骑行时间分布?

骑行时间维度

分析思路:根据原始数据中的开始时间和结束时间,可以计算得到每个订单的骑行时间(当然也包括中途可能停留的时间),我想知道大部分人一般会骑行多长时间,于是绘制了矩形树图,发现最普遍的骑行时间在5~10min之间相应的平均距离在1km附近

那么各个辖区的人们平均骑行时间和距离有没有区别呢?我使用了符号地图,从圆点的大小和颜色来看,各个辖区之间区别不大(除了奉贤区以外,由于奉贤区的订单样本数量只有10个,因此结果不具有代表性)。

从骑行时间这个维度看,我们确实可以发现共享单车带来的便利5~10min过去可能在步行或等待公交车的时候一晃眼就过去了,但是现在却可以骑着单车来到1km以外的“辐射圈”生活和工作效率都得到了大幅提升,这些都是摩拜带给人们的。反之,共享骑行的流动性也会加快摩拜发展的步伐,在无形中为企业以低成本迅速推广宣传,流量雪球越滚越大

总结

本项目基于上海市2016年8月百万条摩拜使用数据,分别从时间序列、空间分布、用户、车辆、距离和骑行时间这几个维度进行探索可视化分析,从中发现了以下规律:

1、2016年8月摩拜在上海进入快速发展期,订单量、单车数、用户数均快速增长。

2、工作日上、下班高峰期骑行量激增,“星期三不加班”现象突出。

3、摩拜骑行主要集中于几个老城区,尤其是杨浦区。

4、活跃用户作为促进摩拜发展的主力军,主要分布于杨浦区及周边。

5、新单车的大量投放促进了摩拜的推广使用。

6、集中于解决3km以内的路程问题。

7、最普遍的骑行时间在5~10min,相应的平均距离在1km附近。

点击此处查看Tableau可视化成果展示~

反思

由于各种原因,本项目进行的维度分析是十分有限的。其实我相信“一百个人眼中有一百个哈姆雷特”,身处不同行业的人看待摩拜共享大数据的角度和眼界也是各不相同的。比如,

1. 政府从城市发展的角度看,“共享骑行改变城市”,具体来说:

a. 分析就业热力图和学校热力图,探究就业圈和求学圈范围的变化

b. 结合骑行热力图,覆盖公共交通盲点区域

2. 企业开疆拓土做市场调研和推广:

a. 发现潜在热点区域开拓商机

b. 分析用户画像和出行特征,针对目标用户展开精细化运营

3. 旅游管理部门开展新工作:

寻找周末和节假日热门骑行旅游路线,增设休息区和服务设施

资源

[1] http://datav.aliyun.com/static/tools/atlas

[2] http://gc.ditu.aliyun.com/regeocoding?l=lat,log&type=010

你可能感兴趣的:(还记得最初见到摩拜单车的模样么?来看看Tableau讲述摩拜初期发展故事)