7 月 21 日、22 日,由 KDD China 主办,西南交通大学和京东金融承办的 KDD Summer School 暨 KDD Pre-Conference,「交通大数据智能」论坛在成都举行,多位知名数据挖掘领域专家以及 KDD 2018 国际会议录用论文的作者介绍了自己的工作以及各自领域的进展。
作为会议的承办方,京东金融的城市计算事业部在会议上给出了一个主题演讲和两篇论文介绍,分享了京东进行城市计算的方法论,辅以众多实际案例。
点、线、面的结合与规划、运维、预测的闭环
京东金融集团副总裁、首席数据科学家、城市计算事业部总经理郑宇给出了以《城市计算:用人工智能和大数据打造未来城市》的演讲,概括性地介绍了京东城市计算事业部的工作。
「城市计算是大数据、人工智能、云计算在城市场景里的有机融合。京东的城市计算的特点,一是点、线、面结合的总体设计和跨领域的垂直应用,二是建立规划、运维和预测的闭环,来给城市计算方案以演进和变化的能力,以适应城市不断的演进和变化。」郑宇这样总结道。
他以雄安的智能城市顶层设计中的自行车道设计为例:自行车道首先要经过「规划」;然后研究自行车的调动、运力最大化,也就是「运维」;还要对短至未来一两个小时、长至一两年内,自行车需求量进行估计,也就是「预测」,预测会反过来指导规划。自行车道的设计、运费和预测三个「点」组成一条「线」,而将自行车、公交、地铁、出租车全盘考虑的规划就是一个「面」,只有整体考虑,才能实现更为合理的整体交通规划。
在设计过程中,城市大数据平台和城市计算平台贯穿始终。
大数据平台定义了六种标准数据,并对所有城市数据进行分类。按照数据结构进行划分,数据可分为点数据和网数据。按照数据关联的时空属性,数据可以分为时空静态、空间静态时间动态以及时空动态数据。这两个分类标准交叉形成了六种数据类别,城市里存在的所有数据都可以被归类其中。数据的标准化意味着数据通用性的增强,也让系统变得可扩展。
城市计算平台则将时空数据特殊的索引算法和分布式结合,获得性能百倍乃至千倍的提升。京东每天新增数据超过 800 TB,如果没有底层支撑,就没有办法实时运行很多算法。
智能交通
在平台之上是各个应用板块,包括智能交通、智能环保、智能商业等,在为每一个城市制定项目时,都是从板块里提取过去的经验进行扩展与复用。
在论坛中反响非常好的一个例子是京东金融与摩拜合作的智能交通项目,KDD 2018 入选论文「用共享单车轨迹检测违章停车」。项目的逻辑很简单:违章停车会影响自行车的骑行线路,如果在某一路段获得了大量符合一定模式的骑行数据,就可以对当前路段是否有违章停车进行预测。在不增加交警人力物力的情况下,进一步降低实际管理成本。
在第二天的论坛上,来自哈尔滨工业大学的何天赋介绍了这份工作。工作包括一个预处理模块,进行有针对性的相应轨迹清洗、路网匹配、轨迹索引;以及一个检测模块,基于假设检验与轨迹融合进行检测。
在预处理部分,通过路网匹配去掉了匹配到高速路等自行车罕至地域的轨迹、与道路几乎垂直的、偏离道路过远的轨迹,同时因为违章停车对正向和反向骑行的自行车影响程度不同,因此将轨迹按其行进方向分开,用不同的模型分别刻画。
在检测部分,作者主要强调三点考量:
1. 不区分不同模式的违章停车,将其全部视为一类。将其多样性内化。
2. 不检测单条轨迹,而是把不同轨迹合在一起进行一次判断,排除可能影响单条轨迹的诸多误差。
3. 对每条路单独建模,排除不同地区障碍物不同带来的 GPS 误差分布差异。
检测模型将深夜的自行车轨迹视为基线数据,然后用 KS 检验判断白天与深夜的样本是否处于同一个分布,输出一个属于同一分布的置信度,然后用真实违停检验数据集确定分类的阈值。
智能空气质量预测
虽然深度学习算法近年在处理图像、语音、自然语言等领域展现了强大的能力,但并不是所有的问题都适合用深度学习来解决。在城市计算中,什么样的问题适合引入深度学习?同样是 KDD 2018 的入选论文,「基于深度分布式融合网络的空气质量预测」,就是一个数据量的质变为深度学习的进入提供空间的例子。
我国于 2012 年开始对 PM2.5 进行监控,在 5 年前,可用数据点只有几千个,小样本问题是进行预测的一大障碍。如今,全国有超过 200 个城市、数千个站点在以小时为单位记录空气质量数据,数据量的极大丰富让研究者思考深度学习能否更好地解决问题。研究者发现深度学习在拐点预测方面有较大提升。
空气质量预测既需要考虑到大颗粒悬浮物,也要考虑污染物,是一项「既要看天,也要看人」的时空细粒度预测,它影响因素众多,且不可直接观测,需要应用机器学习模拟诸多影响因素的变化。在空气质量预测中,拐点预测尤为重要:它与工厂停工、学生停课等城市管理决策执行息息相关。
在深度学习处理时空数据时,数据转化和属性捕捉是两大重点。深度分布式融合网络设计了针对空气质量指数的特定的数据归集合并的方法,进行数据维度对齐和滤噪,然后把气象、 天气、其他污染物等因素引入,进行嵌入(embedding)后,利用不同的融合网络分别学习 AQI 受整体和各因素分别的影响权重,最后得出预测结果。这种方法很好地捕捉了空气质量骤变。准确率提高到接近 50%。
智能商业
在进行智能城市的设计时,经验和数据的可扩展性是郑宇着重介绍的一点。
智能商业的一个典型案例是上海市联通的营业厅改造选址。营业厅改造的目的是把受到线上业务办理影响的空置营业厅资源重新利用起来,而方法是选择部分营业厅进行改造,进行 3C 产品的出售和体验,在这里需要城市计算解决的问题是,在哪里改造和如何配置产品。
京东通过购买 3C 产品的地理位置数据,融合联通的数据,把最大化最后的预期收入作为目标,利用 EM 算法和机器学习排序(learning to rank)算法进行选址和产品配置的学习。
先用联通的数据选出尽可能覆盖更多用户的营业厅,然后再利用京东的售卖数据预测哪些营业厅在改造后会带来更多新增用户。二者在迭代中不断去优化。
针对性打击城市计算痛点
如 KDD China 主席杨强所言,机器学习在工业界的发展将很多学界的研究者引入了业界,但业界的关注重点仍然与学界有差别:例如业界更关注机器学习鲜少涉足的网状数据(社交网络、空间网络),以及相比于机器学习对于端到端与自动化的强调,业界更关注模型可解释性,关注人如何能理解、应用、并对模型结论进行可视化。
将机器学习乃至深度学习应用于城市计算的道理也是这样,郑宇总结道,想要做好城市计算,就要对其痛点进行有针对性的打击,主要注重四个方面:
- 一是在技术上要有针对时空数据的管理、挖掘算法,包括如何将难以融合甚至法律法规规定不能互通的各部门数据在保护隐私的前提下通过建模间接打通。
- 二是在交通、环境、能耗、公安等城市治理领域有深入的行业知识积累,有经验和理解,要求研究人员一开始就从实战角度出发去做学术研究。
- 三是数据,京东拥有海量的自身积累的合法数据, 以及联通、摩拜等诸多合作伙伴的多种时空数据。
- 最后是要不依靠补贴,找到能够产生经济效益的、可以长久持续的商业模式,才能树立品牌效应。
在未来,除了京东商城、京东物流、京东金融之外,还会有独立的京东城市板块,规模甚至可以达到几千人。