纽约出租车大数据探索

本文旨在探索纽约城市市民的打车出行习惯,通过对145万余条数据的定量分析,针对提出的问题相应地得出了些许结论。并在文末分析了日后可以进一步拓展的探索方向。
数据来自于kaggle,选用train.csv中的数据记录进行相关数据分析,使用Python作为分析工具。

数据来源:Kaggle|New York City Taxi Trip Duration

也可参考纽约市出租车和轿车委员会发布的历史数据集: NYC|(TLC Trip Record Data

过程设计:

  • 提出问题
  • 理解数据
  • 数据清理
  • 数据分析
  • 得出结论

一、提出问题

根据已有数据分析:

1、何时为打车需求高发期?

2、居民夜生活活跃情况?

3、城市一天的什么时候最为拥堵?

4、什么时间容易接到长途单?


二、了解数据

表单说明:

id - 每次行程的唯一ID

vendor_id - 行程提供者的ID

pickup_datetime - 上车的日期和时间

dropoff_datetime - 停表的日期和时间

passenger_count - 车辆中的乘客数量(驾驶员输入值)

pickup_longitude - 上车的经度

pickup_latitude - 上车的纬度

dropoff_longitude - 下车经度

dropoff_latitude - 下车的纬度

store_and_fwd_flag - 行程记录是否为存储转发(或是直接发送)-- Y =存储和转发 N =没有存储

trip_duration - 行程持续时间(秒)

四、 数据分析与可视化

分析一:何时为打车需求高发期

行程单数量与月份的关系

在2016年1月至6月这段时期里,月行程单数最多的月份是3/4/5月份,日均订单最多的月份是4/3/2月份。

差异性说明了在分析月份相关的数据时要考虑到每月天数的影响。由于每个月的天数不一样,分析时应以日为维度。

订单数按日期分布、按当月几号分布

1、1月份和5月末出现了异常低值,需要找到其原因。

2、通过观察可以看出,订单数量随日期的变换呈规律性的波动(不考虑异常值),但是根据右图可以看出与日期为几号相关性不大,据此推测订单数量可能与星期几有关。

查看异常值的分布
筛查出异常值

“1、1月份和5月末出现了异常低值,分析其原因。”

---- 调查结果:

(1)美遭暴风雪袭击 纽约时报广场飞雪飘零_网易新闻

2016-1-24 · 当地时间2016年1月23日,美国纽约,美国遭遇暴雪天气,暴雪中的时报广场。

(2)突发!纽约地铁一日接连发生两起死亡事故 --国际--人民网

29日,纽约地铁接连发生了两起死亡事故,分别造成一名男性和一名女性死亡。

(3)阵亡将士纪念日 (5月的最后一个星期一)

中新网5月30日电 据美媒报道,美国迎来“国殇日”长周末,标志着夏季的正式开始。

(4)纽约将迎“曼哈顿悬日”奇观 夕阳余晖尽染

与此同时,每年仅出现2次的盛景“曼哈顿悬日”(Manhattanhenge)也将光临纽约。

接下来研究星期对乘车的影响:

日期对出车量、载客量的影响

上图图一展示了在2016年1月1日至2016年6月30日这半年内,每日订单总量、每日乘客数随日期的波动。

上图图二展示的是单均乘客数随日期的波动。这说明在周期的某一阶段,不仅订单数量增多,而且人们偏向于结伴出行。

按星期的订单数与乘客人数分布

“2、推测订单数量可能与星期几有关”---- 分析结果:

图一是星期一到星期日,订单总数、乘客总数的变化趋势,从中可以看出从周一到周六,订单数量和乘客人数呈线性增长,周日回落至与周二同等水平,这说明市民在周五、周六打车出行的频次最高。这可能来自两种原因:一种可能是人们在周五周六更愿意出门,第二种可能是人们在周五周六更愿意选择打车。

图二是星期一到星期日,单均乘客数的变换趋势,从中可以看出周六、周日为多人拼车高发期,据合理推测,应该是周末放假而导致的结伴出行的几率升高的缘故。

一天内订单数随时间变化(按月拆分)

从图中可以看出:

(1)早高峰表现不显著,从早5点开始,订单量由谷底回升,到达约早8点后订单量开始趋于稳定,在一段时间内波动不明显。

原因推测:1、市民上班的出行需求被公共交通、私家车等分担,不会偏好于出租车出行;2、市民的上班时段不集中

(2)晚高峰表现显著,从晚5点半开始订单量有小规模增长,约晚7点进入打车最高峰,且在23点之前的平均打车量要高于白天时段。

原因推测:1、相比于早间,市民在晚间外出活动时更偏向于出租车出行。

(3)下午时段,16:40左右出现订单量回落。

原因推测:1、司机交班;2、道路拥堵。

分析二:居民夜生活活跃情况?

纽约市民夜生活活跃情况:从23点开始,订单量显著下降,这一下降持续到约早5点,早5点是一天内订单量最低的时刻。

分析三: 城市的一天什么时候最为拥堵?

问题转化为:行驶速度最高/低的时刻

时刻与行驶距离的关系

由图可以看出,行驶速度在一天内可以大致分为三个阶段:

阶段一:08:00-20:00
这段时间的车辆行驶速度是三个阶段中最低的,这也是白天人们活动比较活跃的时段,速度基本稳定在同一水平,不存在明显的极值。

阶段二:20:00-03:00
这一阶段开始,车辆的行驶速度有微弱的上升趋势,阶段的平均速度相较于阶段一来说高出大概1/3的水平。

阶段三:03:00-08:00
在这段时间,车辆的行驶速度先是明显上升,在约5点的时刻显著回落。这告诉我们清晨五点是纽约这座城市的苏醒时刻。

分析四:什么时间容易接到长途单

时间和订单路程距离是否有关系呢?接下来进入分析

时刻与订单路程的关系

分析结果:在凌晨时段最容易接到长途单,在5点左右最为明显。

另外,看到图形时有种似曾相识的感觉,原来与行驶速度的图形十分相似。是相关关系还是因果关系呢?

总结

分析到此告一段落,其实这个数据还有值得分析的地方,比如,结合地理位置的数据,可以根据区域划分出不同行政区的乘客行为特点。对城市有更为细致的诠释。

还可以分析哪些时段的哪些区域更容易发生订单,这对出租调度来说是个有效数据。

从暴雪带来的异常值可以推测,天气与订单量是有密切关系的,根据日期对应天气数据,可以进一步分析天气与订单量的影响。结合位置数据,还可以分析哪些区域受天气的影响较大,等等。

另外机场、车站,作为比较有特点的地理位置,也可以单独作为一类来研究。

另外如果进一步获取更多时间轴上的数据,也可探索更多例如同比分析、环比分析的方法,并且可以进一步提升结论的可靠性。

预留问题:

--上车位置最多的地方,下车位置最多的地方?人都去哪了?

--行旅出差人士行为偏好?

你可能感兴趣的:(纽约出租车大数据探索)