私家车作为人们出行的主要交通工具,已经逐渐融合到人们日常的生活、娱乐和交流等活动中。近些年私家车的保有量急剧增加。私家车保有量的迅猛增长与城市空间资源之间的矛盾日益加剧,给城市带来停车困难、交通拥堵等一系列问题。随着信息和通信技术的发展,全球定位系统和车载自诊断系统等传感器设备的普及,为收集海量的私家车轨迹数据提供了支持。通过对收集到的私家车轨迹数据集进行分析和挖掘,能够为城市环境中的一系列问题提供解决方案
以私家车轨迹数据为例,详细介绍人工智能在私家车轨迹数据挖掘的应用现状,在此基础上,以私家车流量预测为应用背景,以“数据获取-数据预处理-应用实战”为主线,带领初学者完整实现一套标准的私家车轨迹数据建模与车流量预测流程
要探讨人工智能在私家车轨迹数据挖掘的主流研究方向,目前关于私家车轨迹数据挖掘的相关研究工作较少,根据现有文献主要分为三个大的研究方向,轨迹预处理、出行模式分析和城市计算应用,如下表所示
目前,基于车辆轨迹的应用方向的相关文献数量最多
车辆轨迹收集通常会面临诸如轨迹数据不准确和不完整之类的挑战,这主要是由于全球导航卫星系统(Global navigation satellite system, GNSS)中断造成的轨迹缺失。为解决GNSS中断的问题,集成了迁移学习以构建数据过滤策略,该策略可在当前情况下最大程度地减少负样本权重,设计了一种更准确的分类学习损失函数,用于获得集成迁移回归模型
车辆定位服务和通信技术的进步产生了大量的时空轨迹数据,这导致了数据在车辆轨迹数据中心进行存储和通信的危机。为了可以用低成本的车辆定位设备实时收集私家车轨迹数据,学者提出了一种基于机会压缩和传输的长短期存储方法,旨在减少轨迹传输的开销和存储成本。然后,提出一种时空变换方法将轨迹数据分为空间距离和时间距离两部分,并分别实现压缩操作。此外,作者设计了从车辆终端到数据中心的轨迹数据的机会传输,可以显着减少传输开销。OCT-LSTM不仅实现了实时的轨迹预处理和压缩,而且还保证了较高的轨迹压缩率
私家车出行模式是指私家车主的移动性遵循一些规律并展现频繁的重复出行行为。私家车用户通常是指车主及其家人,因此一辆私家车的移动性能够反映车主(或其家人)的长期出行行为并且展现明显的停留行为。由于私家车轨迹数据展现的这种独特的停留现象,其特别适合用来挖掘个人的出行模式,现有研究主要分为三类:规律出行模式分析、语义出行模型分析和人类移动性分析
文献 [12]基于轨迹数据分析的私家车的规律出行行为。由于轨迹的相似性反映了规律的出行行为,作者构造了轨迹相似性矩阵。特别地,引入了停留时长,并提出了带有实罚的改进编辑距离模型(Improved edit distance with real penalty, IERP)以度量轨迹之间的时空距离。采用核主成分分析来减少相似度矩阵的特征维度。为了从大量未标记的轨迹数据集中识别出行规律,提出了一种基于迁移学习的分类方法以迁移现有知识
文献 [13]基于大规模的私家车轨迹数据集研究私家车用户的个人出行模式,从私家车的轨迹数据中提出停留信息,利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)模型聚类以识别出用户经常去的地方(Frequent visit place, FVP)
文献 [16] 基于私家车轨迹提出一种挖掘规律出行模式的方法,即私家车对不同地点的时间分配方式。为了表示出行时间特征,提取私家车轨迹中的停留信息。根据停留信息利用条形时间块对出行时间特征进行表示。引入编辑距离(Edit distance, ED)和DBSCAN 模型对样本的距离进行度量,即提出一种 ED-DBSCAN 算法对私家车主要出行模式进行挖掘
文献 [17] 以城市私家车的出行轨迹为研究对象,提出一种基于聚类的模型来检测私家车的出行规律性,基于聚类的方法可以对其进行行驶特征分析以帮助人们理解私家车出行规律及其出行行为对城市交通流的影响
文献 [18]对私家车轨迹数据进行全面评估并提出了一种半监督学习的算法识别城市中的规律出行者。通过对私家车用户的移动和停留的频率、时间、时长和距离等实证评估,探讨私家车出行特征,在此基础之上提出了一种基于出行特征的检测方法从海量的私家车轨迹数据集中识别出规律出行者
文献 [14]提出了一种称为SMOPAT(Semantic MObility PATterns, 语义移动性模式)的方法,用于从私家车的轨迹中挖掘最频繁的时空语义移动性模式。设计了一个具有潜在变量的概率生成模型,以表征车辆的语义移动性。基于该模型,SMOPAT通过使用多项式时间动态编程算法以访问为目的标记轨迹中的每个位置,查找最频繁的语义移动性模式
文献 [15]基于意大利78万辆的私家车轨迹数据集,证明了Levy飞行模型无法解释出行行为中的出行时间和速度。作者引入了一类由经验观察验证的加速随机游走,其中速度在随机时间因加速度而变化,将此机制与出行时间的指数衰减分布结合,会导致距离的短尾分布。这些结果说明了纯描述性模型的局限性,并提供了一个人类移动性的机械观点
私家车时空流量预测作为智能交通领域的研究热点,旨在利用现有的车流量预测未来的车流量,具体可应用到智慧停车、风险预警和城市吸引力区域挖掘等领域。私家车的时空流量的定义较为宽泛,本节将给定时空环境下的私家车数量预测任务归纳为时空流量预测,研究方法主要分为两类:基于概率密度估计的方法和基于深度神经网络的方法
文献 [3] 基于大规模私家车轨迹数据研究了私家车停留行为产生的城市聚集效应。受地理学第一定律的启发,作者利用核密度估计(Kernel density estimation, KDE)方法并将私家车轨迹数据扩展到三个维度以捕获私家车密度分布,从而提出了一种基于3D-KDE的预测模型来预测动态时空城市聚集效应
起初研究人员将时空流量建模为视频数据,基于时空卷积神经网络(3D CNN)算法将私家车流量的时空预测转化为视频预测,将连续多天的私家车轨迹数据时序化为以“时”为单位的密度矩阵,并通过3D CNN算法将密度矩阵的预测转化为视频预测,从而降低了模型训练的代价,并且以具体的私家车数量来呈现私家车流量预测的结果
由于图神经网络(Graph Neural Network, GNN)能够较好的捕获私家车流量在城市空间的非欧几里得关联,越来越多的研究人员将GNN应用到时空流量预测中。文献 [2] 通过有效地捕获城市私家车出行的时空特征,提出一种多源异构数据融合的私家车流量预测模型。首先,融合私家车轨迹和城市区域数据表征城市私家车的出行分布。其次,通过多视角时空图建模私家车出行和城市区域之间的动态关联,设计了多图卷积−注意力网络(Multiple graph convolution-attention network, MGC-AN)以提取车流量演变的时空特征。最后,进一步融合时空特征与天气等外部特征,联合预测私家车流量
私家车轨迹预测对于基于位置的服务(例如,广告投放)具有重要意义,私家车轨迹预测分为出行轨迹预测和停留点预测两个子方向
私家车轨迹数据集可以通过车载GPS和OBD位置终端设备所采集获取,GPS提供私家车的经纬度数据,OBD感应到私家车自身的传感器数据。GPS位置定位模块内含GPS跟踪器,采集私家车位置信息数据即GPS轨迹数据,包含私家车位置(经纬度)和当前时间以及GPS信号强弱等级。OBD模块采集私家车行驶状态信息,包括私家车点熄火时间、当前行驶里程、行程油耗、行驶时长、速度、方向等数据。还有其他与行程相关的数据由GPS和OBD模块共同收集,包括具体车辆类型相关的故障检测等信息。最后,收集到的数据通过GPRS通信模块,再利用无线蜂窝网络和有线网络传输至云端服务器
也称汽车电子身份证,将车牌号码等信息存储在射频标签中,能够自动、非接触、不停车地完成车辆的识别和监控,是基于物联网无源射频识别(Radio Frequency Identification, RFID)在智慧交通领域的延伸
国内的私家车开源数据集由湖南大学的王东教授和肖竹教授的团队共享在GitHub上 ,该数据是由王东教授团队的麦谷科技—湖南大学车联网联合实验室采集得到的。为保护用户的隐私,在上传采集到的数据时,分配国际移动设备识别码(IMEI)给用户的GPS/OBD设备,作为每辆车的脱敏身份标志号
私家车轨迹数据集主要包括2个重要组成部分:私家车行程事件表和私家车历史轨迹表。行程事件记录了私家车的一段出行行程的具体信息,采集了起始和终止的时间、地点等字段。经纬度的坐标体系为WGS84 GPS世界标准坐标