相比于其他城市规划管理领域,城市交通相关的细粒度精细化数据较多也较丰富,所以大数据、数据挖掘在交通领域的应用也较广。
一、数据来源与分类
除了Han Hsiao已经提到的大数据来源,还包括停车管理数据、牌照识别数据等交通领域数据及POI数据、手机信令数据等相关领域数据,并借鉴同济大学杨东援老师在某次学术会议上的发言,结合个人工作经验进行进一步归类:单次观测数据:如浮动车GPS数据、道路卡口数据、停车管理数据等;
连续观测数据:手机信令数据、LBS(Location-based service)数据(如我们使用微信、百度时留下的位置数据)、道路路况数据(如高德、百度等公司发布的拥堵指数)、公交刷卡数据、牌照识别数据等;
基础数据:POI(Point of Interest)数据(如大众点评上的商家数据)、企业工商管理数据、房屋价格数据等;
(以上的“单次观测”和“连续观测”,是基于对个体出行(或交通设施)观测的角度进行区分的。有些数据在不同语境下所属的类别不同,比如浮动车GPS数据,对于个体出行而言是“单次观测”,而对于出租车运营而言则是连续观测)。
二、为什么要用大数据分析城市交通
这些数据的好处主要在于:细粒度:这里包括数据对象的细粒度、时间的细粒度和空间的细粒度。首先是数据对象,大数据往往描述的是“某个人、某条路、某辆出租车/公交车、某家餐馆”等等,而不是“某个区”、“某群人”、“某种交通方式”啦。而数据对象的细粒度往往伴随着空间的细粒度,很多数据都是用经纬度表示空间位置的,而不是之前的“市/区/街道”等。至于时间的细粒度,可以参加下面的更新速度;
更新快:拿城市交通综合调查举例子,可能五六年才一次。人口普查基本上是十年一次,经济普查大概五年一次。但与这些数据相比,大数据则更新速度很快,比如说出租车GPS数据,以我处理过的数据来讲,基本上在90s以内就会更新一次;
连续性:上面提到,很多数据都是对某数据对象的连续观测,因此,我们可以从该个体的长期行为中提取该个体的行为规律。
信息丰富:这个就不多说了,上面列举了那么多数据,丰富不?
充分利用上述优点,我们就可以:进行更多元化、精细化的分析:空间尺度可以从宏观到微观,时间尺度可以从年度/月度/每天到每小时/30min/5min 甚至更短,分析的维度/角度也可以更多元、更立体;
融合多源异构数据,寻找现象间的隐秘联系:城市是一个复杂巨系统,各个子系统之间彼此相互影响,把各种各样的数据联系起来,发现城市现象间的关联关系;
分析个体选择行为,发现个体偏好:大量的、连续的基于个体的数据,为各种disaggregate model 的搭建与拟合提供了数据基础;
...
三、数据应用举例
大数据、数据挖掘在交通领域的应用可包括辅助交通规划、交通管理、交通监测和相关决策等(这里所说的是站在城市工作者的角度),又可根据研究对象空间尺度分为城际尺度和城市交通尺度。
总体来说,大数据可以精细化地回答交通领域关心的诸多基本问题,比如:“人在哪儿”、“从哪儿来,到哪儿去”、“怎么去”、“什么时候发生”等,以及由此衍生出来的,比如:“挤不挤”、“远不远”、“单调不单调”、“利用充分不充分”、“够不够”等。还有可能为回答更深层问题提供一些思路,比如“为什么”、“有关吗”、“怎么办”等。
下面具体来说以下几个方面:
1. 人口活动:通过手机信令数据、LBS数据等个体连续观测数据,分析人群聚散、出行特征等,并量化地理空间的联系等。城际尺度:城市群分析、城际联系(如经济活动、异地就业)等。这一部分可参见一篇和前同事们写的文章(《城市圈粉指南:那些相爱相杀的城市》,由于人在国外,无法搜到市政厅的文章链接,请谅解),简单贴两张图;城市尺度:人口分布、职住关系、人口流动和聚散变化等。如下(图: 贵阳各街道工作人口通勤距离;图:区域人口热力图,来自区域热力图)
2.交通运行:利用上面提到的浮动车GPS数据、公交刷卡数据、道路卡口数据、牌照识别数据、道路运行数据等,分析不同交通方式下的城市交通运行,反映出行者出行需求特征、交通供给情况和供需匹配程度等。此类分析由于受到数据本身影响,多为城市尺度分析,城际分析较少。举几个例子:拥堵:指数计算(利用出租车GPS数据,或高德等导航服务商的用户GPS数据等,对各微观道路进行拥堵指数计算),以及据此进行的拥堵监测、拥堵规律分析等;
公交运行特征:直接上图(图:利用公交刷卡数据得到的站点分时段登降量;图:地面公交站点高峰系数)。可以通过构建指标体系,利用丰富的数据资源对相关指标进行计算,实现细粒度的精细化分析。
3. 城市监管与应急:同样,通过建立监管指标体系,结合数据实时采集、传输、计算和可视化等,也可能设计到数据数据融合、叠加分析等,实现城市监管与应急。许多城市已经搭建或着手搭建交通监测与评估系统,在此不做赘述。
4. 城市规划相关分析:交通规划或者说交通问题的缓解不能只着眼于交通系统本身,城市空间格局及其产生的社会活动对交通需求同样有深层影响。所以,利用多源数据(如POI数据、房屋价格数据等),对城市产业、设施、用地等的分析,也是大数据、数据挖掘等在交通领域应用的重要组成部分。举例,之前写过的一篇网文:同衡城市研究|北京地铁不为人知的故事:枣营与将台。贴张图(图:地铁站周边POI分布)
5. 城市决策:利用多源异构数据,搭建多维指标体系,构建可信、可靠的模型,提供决策支撑。当然,这个会涉及到更多的模型搭建、算法开发等。
上面所提到的多是从规划师角度出发的应用,其他商业角度的应用大家可能生活中已经见到很多(如,滴滴/Uber等提供的打车服务、高德/百度等提供的导航服务、摩拜/ofo提供的共享单车服务等),主要是出行相关的服务,方便出行,多元化出行,解决供需的时空匹配问题等。
四. 大数据一定好用吗?
老生常谈的问题,见仁见智。在第二部分我们提到,大数据有那----么多的优点,那么它是救世主吗?并不见得。
首先,我们在交通规划/管理/监督/决策辅助等领域常用到的数据并不是定制化的数据。也就是说,这些数据产生和收集的主要目的并不是用于交通规划/管理/监督/决策辅助,而是一些其他生产活动的衍生品。所以,这些数据可能本身存在样本偏差,比如,手机信令数据里只包括那些用手机的人,或者说,某个电信公司的手机用户,其他人就没办法了。还有,数据很可能受到采集触发机制的影响等而不能很好得适用于现有理论、现有模型等。还是拿手机数据举例子,它的数据采集触发包括使用手机(上网、接打电话、收发短信等)、切换基站、每隔较长时间段的定时采集,所以,严格意义上来讲,单个用户在空间上留下的轨迹并不能直接转换为传统意义上的交通OD。再比如在第一部分提到的那篇城市迁徙文章,受到数据采集机制的限制,我们采用的是“先提出假设,再用数据验证“的方法,而不是“先分析后总结”的方法,因此我们并不能给一个100%的结论,所有的论证都是对“假设是否成立”的探讨。
另外,大数据的另一特点就是价值密度低,因而在使用之前往往需要进行数据清洗,去掉无效数据。数据的应用受数据质量的影响很大。
所以,我们仍然需要注意:数据只辅助决策,而不产生决策:以上,我们可以看到大数据的应用能够将抽象的城市问题具象化,使之前的经验式决策变得更为科学。但数据往往缺乏主观能动性,因而难以取代人的思考及主观判断,目前仍然需要具有相关行业知识的人设计分析方向或对结果进行解读(至于以后,留待以后再说吧);
“过去”与“未来”哪个好,或许都挺好:“小数据”与“大数据”,“行业理论/行业模型”与“机器学习”,一直有人试图比个高低。其实这不是个“谁踩死谁“的问题,能够找到彼此的优点,发挥各自的特长,能够相互验证、相互结合、相互补充,可能才是Happy ending吧(可能和找另一半一个道理...);
写了好长,多是一些工作和学习感悟,如有偏差和不足欢迎讨论。