随着我国社会经济的发展、城市化进程的加快,城市公共交通的规模也在不断扩大。如何更好地发展与管理城市公交,实现其社会效益最优化,并最大限度地提高公交企业管理水平、提高公交车辆运行效率,是目前面临的现实问题。
公交行业由于传统数据仓库平台的软硬件扩容成本过高(teradata、oracle、小型机等),导致单位数据存储成本与总体计算成本过高,为应对过高的TCO(总体拥有成本),不得不对全量数据采取拆分存放,将大量历史数据离线存储,进而导致数据应用的不便;而基于传统数据仓库技术的报表式指标数据加工手段,往往遵从T+1原则(业务日下一日),对于实时统计分析场景也缺乏有力支撑。以上两点不足,都严重制约了公交行业数据的纵深应用。
如何更好地发展与管理城市公交,实现其社会效益最优化,并最大限度地提高公交企业管理水平、提高公共交通运行效率,是目前面公交行业面临的现实问题,而具体到实际应用,则主要体现为以下几个具体问题:
政企协作问题:
如何科学、准确地评估公交财政投放总体资金规模?
如何科学、准确地评估购置车辆数量及对应购置费用数额?
如何科学、准确地评估存量车辆与增量车辆时间窗口内的能耗情况,以及能耗对应的财政补贴?
乘客满意度问题:
如何实时、准确地进行公交到站预测,优化客户候车预期,提升客户满意度?
如何科学、智能地优化公交车辆调度,进而优化线路运力水平,优化客户体验?
如何科学、合理地划分交通小区,针对性配置社区“微循环”车辆,提升客户出行感受?
精细化运营问题:
如何精细化开展运营监测指标体系?如计划里程/实际里程、计划配车/实际出车、计划配班/实际配班。
如何精细化开展运营分析指标体系?如配车情况分析、公里情况分析、配班情况分析、能耗分析、资源利用分析。
如何精细化开展实时监测体系?如车辆状态实时监测、车辆位置实时监测、车辆串车实时监测预警、大间隔实时监测预警、道路实时拥堵监测。
而要解决这些问题,一个强大的大数据支持平台必不可少,同时对大数据解决方案的提供商也提出了不小的挑战。而作为民族企业大数据代表的睿至数据,一直以来都在持续关注公交行业的发展,并为公交行业提供了完善的大数据解决方案。
实际上,选择什么样的大数据技术平台则对于解决公交行业面临的上述问题至关重要,由于Hadoop技术软硬件体系扩容成本较低(开放技术、PC服务器),可以大大降低单位数据存储成本与计算成本,从而为全量数据在线,海量数据加工计算提供了先决条件;基于流数据的处理技术,使数据在产生的过程中,持续加工、汇总、分析,实时产生价值信息,为类似实时断面客流量统计、车辆满载率分析、道路拥堵指数分析奠定了技术基础。总言之,公交行业主要考量的是供应商整体解决方案的技术支撑能力和业务应用能力两大能力。技术支撑能力包括大数据平台软硬件横向扩展能力、扩展成本增速、实时数据处理能力、数据处理规模能力;业务应用能力,包括除公交基础指标应用外的数据挖掘模型类应用,如客流迁徙模型、新线开通模型、定制公交模型等应用。这两大能力是公交大数据平台建设过程中关注的重点。
该项目中,睿至大数据做了很多模型,与公交行业充分结合,最终达到了很好的效果。这些模型包括了客流迁徒模型、职往模型、路网拥堵模型、职住平衡合理分布模型、乘客标签与组分分析模型、车辆经济寿命模型、车辆经济效益模型。
睿至公交大数据应用平台从探寻城市环境下公交交通运行全局活动出发,汇集公交交通运行过程中,政府管理部门、公交运行企业、公众出行参与方共三方面多渠道多角度的信息,揭示城市核心功能区主干路网OD特性,分析预测乘客迁徙动向,探究乘客流向与公交需求管理/线网规划/线路开通之间的匹配度,剖析交通流与公交交通线路规划/交通突发事件的相互影响,统筹分析公交线路规划合理性,洞察新的乘客流动趋势,探索公交面对突发事件的最优化处理方案。具体功能涵盖四个专题、七个模型。
四个专题指人、车、线、站专题:
专题“人”指,以乘客为着眼点,基于客流OD、断面客流量、平均换乘、客运量、平均乘距、出行连等关键指标,精准刻画城市客流时空流动特性;
专题“车”指,以车辆为着眼点,基于车辆能源消耗、故障率、车辆位置监测、运行监测、维修成本、运营监测等关键指标,科学指导内部运营,减少成本,提高效益;
专题“线”指,以公交线路、线网为着眼点,基于城市交通热区、交通热点、道路难度系数、线路重合度、断面负载等关键指标,科学指导新线、新站开通;
专题“站”指,以公交站为着眼点,基于分散公交站点的乘客登降量、中转量、集散量、覆盖度、不均衡系数等关键指标,探寻公交站点功能性特性及引力特征;
该平台通过数据源层、数据采集与交换层、数据存储与计算层、应用层、门户层的有机衔接来完成“数据”到“价值”的生产过程。数据源层包含公交业务运营过程中的关键生产系统,是数据产生的源头。数据采集与交换层主要负责集中抽取数据源层各生产系统的数据,并进行统一整合和清洗,然后进一步向数据存储层传递。数据存储与计算层主要负责集中管理存储整合、清洗后的全量数据,同时提供基础指标加工、特征数据加工、业务建模运算等计算能力,为数据应用奠定了可靠、全量、简易的数据基础。应用层指基于数据存储层的数据所开展的各类数据挖掘、分析类应用。最后,门户层提供数据应用的统一认证与授权,保证了数据使用的安全性。
睿至公交大数据应用平台具有以下功能:
通过早晚高峰客流迁徙规律数据,可以实现精细化规划调度排班。从而提升运力,提高收益。定制直达公交。从而提升收益。
通过路网实时拥堵数据,可以实现早晚高峰期间,公共车道和公交专用道的拥堵对比,通过影响出行市民乘坐公交,进而提升运力、增加效益。
通过职住平衡可视化模型,可以实现支持上级管理部门,评估城市规划合理性。优化城市布局。定制交通小区间的直达公交,从而提高收益。定制以交通小区为节点的串联区间公交,从而提高收益。
此外,客户标签化,是公交精细化运营的基础,通过乘客标签化可进一步实现:
精细化客流预测,即基于乘客上车时刻、在途时刻动态预测客流;
通过乘客组分分析,掌握不同群体组成结构,从而指导差异化产品创新、产品定价,进一步提升总体效益;
基于乘客组成结构、出行规律,支撑票务价格制定(最优解),提高总体收益;
基于乘客组成的精准广告服务,精准广告投放,包括车身广告、车载视频广告等。
北京睿至大数据所提供的公交大数据平台方案,深入贴合公交业务特性,真正实现了公交数据的深度应用。通过方案的落地实施,不仅打破了我们已有数据割裂式存放的困境,还发挥了数据全量在线的真正价值,通过交通拥堵指数模型、客流迁徙模型、资产经济寿命模型、盈利刻画模型的投产应用,使数据驱动创新成为可能,使数据驱动业务成为可能,也使数据创造收益成为可能。在部署了该技术方案后,精确掌握了全市客流在早、晚高峰的时空流动特性。并基于该模型实现了定制公交、直达公交、智能调度等多项创新应用,助力决策层由“经验型判断”向“精确型判断”迈出了一大步。同时,定制公交和直达公交在满足城市公共出行服务的基础之上,实现了较好的营业收入,在全市全辖所有线路中,排名整体靠前。
在方案落地初期,过重的强调的业务交付速度,忽视了数据治理基础工作的重要性,导致正确的业务模型和算法产出了有悖业务常识的计算结果。虽然经过持续深入的数据血缘追溯,找出了问题的根源(数据质量问题),并最终纠正了数据产出结果,但数据排错过程中付出了大量重复的工作量。所以,数据治理(元数据与数据质量)是数据应用的可靠保障,只有正确的数据输入才能保证正确的价值输出。
同时,在项目实施的过程中所遇到的主要问题是数据增长速度预估不足,数据应用过程中的所导致的数据膨胀空间预估不够,同时,数据量的增长过快又必然带来计算资源的紧张。针对以上问题,采取的手段是持续扩展大数据集群规模,然后进行数据再平衡分布(rebalance),虽然集群数据再平衡耗时较长,但完美解决了应对数据快速增长所带来的技术挑战。