2021 KDD
1 intro
1.1 背景
- 现实中低采样率的轨迹十分常见
- 以出租车为例,为了节约设备的通信成本,通常每2-6分钟才会上报一个位置信息
- ——>这导致收集到的轨迹数据十分稀疏
- 为了更好地挖掘低采样率的轨迹,一个直接的方式是先将低采样率轨迹在自由空间上恢复至高采样率,而后再将恢复的轨迹匹配至路网上,以支持后续的应用服务
- 然而两步走的做法很可能会导致误差累积
- 自由空间上的轨迹恢复可能会导致后续地图匹配选错路径
- 此外,传统的地图匹配是一种非常耗时的算法
1.2 论文思路
- 提出了一种新的映射约束轨迹恢复模型,即MTrajRec
- 基于序列到序列(Seq2Seq)多任务学习
- 同时预测路段ID以及在该路段上移动的比例
2 问题定义
2.1 自由空间轨迹
-
- 每一个采样点由经度、纬度以及时间戳表示
- 自由空间轨迹可为均匀或不均匀采样
2.2 地图匹配轨迹
- 采样率为ε的地图匹配轨迹
- 每一个采样点由路段ID,在该路段上移动比例以及时间戳表示
- 采样率表示为每隔一定时间生成一个采样点
2.3 将路段ID & 移动比例转换成 经纬度
2.4 问题定义
- 给定一个低采样率的自由空间上的轨迹τ以及目标的采样率ε,将其恢复至采样率为ε的地图匹配轨迹τ’
3 模型
3.1 encoder-decoder+multitask
3.2 约束掩码
3.3 attention 模组
3.4 其他属性模组
3.5 损失函数
3.5.1 预测路段id
使用cross entropy
在multi-task中预测路网id 的概率的交叉熵
3.5.2 移动比率
3.5.3 最终损失函数
4 实验
4.1 数据
- 济南1个月的122390名司机的轨迹和620万GPS记录。
- 所有的轨迹每15秒采样一次。它覆盖的矩形面积从(36.6456,116.9854)到(36.6858,117.0692),长约7.47公里,宽4.47公里。共有2,571条路段
- 通过从随机保持%的采样点来生成低采样率轨迹
- %={6.25%、12.5%、25%}
- 平均间隔为4min,2min和1min
4.2 metrics
使用路径距离,而不是欧氏距离
- 由于是有向图,所以rn_dis(a,b)和rn_dis(b,a)是不等的,取这两个路径距离的最小值
4.3 baseline
- Linear+HMM:假设轨迹直线均匀地移动,然后将轨迹匹配到道路网络上
- DHTR+HMM“:基于卡尔曼滤波器的subseq2seq模型来在自由空间中恢复轨迹,这是轨迹恢复领域中最先进的方法。在得到恢复的高采样率轨迹后,我们引入HMM将它们匹配到道路
- DeepMove+Rule:将多因素与递归神经网络来预测人类的流动性,进行下一步轨迹预测。
- 变体
- MTrajRec-noCons:没有约束掩码
- MTrajRec-noAttn:没有attention
- MTrajRec-noAtts:没有attribute模块
4.4 实验结果
4.5 运行效率
4.6 预测结果