数据类型 | 数据名称 | 数据处理 |
出租车数据 | 波尔图 | 原始数据:2013年7月到2014年6月,170万条数据 |
ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 过滤位于城市(或国家)区域之外的轨迹 过滤包含少于20个点或超过200个点的轨迹 |
||
CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning 为两个数据集设置相同的采样率,即15秒 |
||
CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query 根据位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100 |
||
KDD2022 TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach 选择城市中心区域的轨迹,并移除少于10条记录的轨迹 ——>超过60W条轨迹 |
||
CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation
|
||
ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation 没有多少处理 |
||
哈尔滨 | ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation 8个月内13000辆出租车的轨迹。 选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。 这产生了150万条轨迹 |
|
西安 | 2018年10月的前两周 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 过滤位于城市(或国家)区域之外的轨迹 过滤包含少于20个点或超过200个点的轨迹 |
数据类型 | 数据名称 | 数据处理 |
出租车数据 | 德国 |
ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 2006年到2013年间 过滤位于城市(或国家)区域之外的轨迹 过滤包含少于20个点或超过200个点的轨迹 |
罗马 | KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks 移除了少于10个采样点的轨迹 45157条轨迹 |
|
北京(T-drive) | AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM 从10,357辆出租车中收集的 使用空间相似函数通过GPS坐标在北京道路网络上创建基准真值 |
|
KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks 移除了少于10个采样点的轨迹 |
||
KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks 按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。 通过过滤异常值,这些轨迹的平均长度为25。 |
||
新加坡 | 15,054辆出租车的轨迹 对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集 |
|
人流mobility数据 | 北京( Geolife) |
2007年4月到2012年8月收集的17621条轨迹 |
Sigspatial 2022 TSNE: trajectory similarity network embedding 选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。 移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹 |
||
CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity
|
||
2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach 过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹 移除了少于10条记录的轨迹 大约8,000条轨迹 |
使用了三个真实世界的轨迹数据集:
(1)Porto ——2013年7月到2014年6月间,葡萄牙波尔图的170万条出租车轨迹;
(2)西安——2018年10月的前两周内,中国西安的210万条网约车轨迹(滴滴)
(3)德国 ——2006年到2013年间,170.7千条用户提交的轨迹。(openStreetMap)
预处理后的数据集在表II中进行了总结。
为两个数据集设置相同的采样率,即15秒。
根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试
波尔图数据集:从2013年到2014年,有超过四百辆出租车的170万辆车轨迹。
我们根据它们的位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100。
然后我们删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格。
经过预处理,我们在波尔图获得了79,362条轨迹。
Geolife ——由182个用户从2007年到2012年在中国北京收集的17,621条轨迹组成。
选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。
移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹。
(1)TDrive ,包含了两周内北京的321,387条出租车轨迹(752MB)
(2)Lorry,包含了广州的4,394,397条JD物流卡车轨迹(136GB)
(3)合成,为了验证TraSS的可扩展性,我们使用了由Lorry数据集复制7次生成的五个合成数据集
• Geolife 由中国北京的182名用户收集,它包含了广泛的人类户外运动,这些运动是用户的GPS位置。总共,Geolife中有17,612条轨迹。
• Porto 包含了超过170万辆车的路线轨迹,主要由葡萄牙波尔图的442辆出租车收集。
遵循之前的工作,过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹用于训练和测试。
也移除了少于10条记录的轨迹。
经过预处理后,Geolife数据集中有大约8,000条轨迹,Porto数据集中有600,000条轨迹
1)北京(Geolife)
该数据集保留了182名用户在三年多的时间里的所有旅行记录,包括多种交通方式(步行、驾驶和乘坐公共交通)。
轨迹每1-5秒采样一次,两个相邻点之间的平均速度为5.73 m/s。
北京的道路网络有65,129个节点和85,322条边。
2)新加坡。
该数据集追踪了新加坡的15,054辆出租车的轨迹。
对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集。
它在两个相邻点之间的平均距离远高于GeoLife。
新加坡的道路网络包含20,801个节点和42,309条边。
这是一个私有数据
3)波尔图。
该数据集包含了442辆出租车在波尔图市,葡萄牙一整年(从2013年7月1日到2014年6月30日)的轨迹。
其道路网络具有最细的粒度,有100,484个节点和129,303条边。
我们在3种类型的数据集上进行实验。
1)小规模和小空间跨度:旧金山(SF),波尔图(Porto),罗马(Rome),T-drive [33]。
2)大规模和小空间跨度:成都和西安。
3)大规模和大空间跨度:OSM。
数据集统计信息显示在表III中。
在预处理阶段,我们删除长度小于10的轨迹,并将长度大于1000的轨迹分割成多条轨迹。我们均匀且随机地选择100条轨迹作为查询集。
1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org
我们的实验使用了以下两个数据集:
• Geolife [17] 是一个基于GPS的轨迹数据集,由2007年4月至2012年8月在中国北京的182名用户收集。该数据集包含17,621条轨迹,并记录了广泛的人类户外活动。
• Porto [18] 是一个包含超过170万辆车路线轨迹的数据集,由葡萄牙波尔图的442辆出租车收集。该数据集用作评估交通监测模型的基准。
使用来自不同城市的两个空间网络。一个是来自北京市的,即北京道路网络(BRN)。另一个是来自纽约市的,即纽约道路网络(NRN)。
在BRN数据集中,有28,342个兴趣点和27,690条边;在NRN数据集中,有95,581个兴趣点和260,855条边。
对于BRN中的轨迹,我们使用来自T-drive项目的出租车行驶数据。BRN中的出租车轨迹是按出租车id收集的,一条轨迹的时间范围可能持续几天。因此,我们按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。通过过滤异常值,这些轨迹的平均长度为25。
对于NRN中的轨迹,我们使用来自纽约的出租车行驶数据。在原始数据集中,有697,622,444次行程,我们随机抽样其中的一部分来生成轨迹数据集。经过预处理后,我们的实验中有10,541,288条轨迹,它们的平均长度为38。详细信息总结在表1中。
对于这两个轨迹数据集,我们都以20%、10%和70%的比例随机分割它们为训练集、评估集和测试集。
ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle
https://publish.illinois.edu/dbwork/open-data/
第一个数据集在葡萄牙的波尔图市收集,持续19个月,包含170万条轨迹。每辆出租车每15秒报告一次其位置。我们移除了长度少于30的轨迹,得到了120万条轨迹。
第二个数据集包含了在中国哈尔滨市收集的8个月内13000辆出租车的轨迹。我们选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹。
我们根据轨迹的开始时间戳将两个集合划分为训练数据和测试数据。对于这两个集合,前80万条轨迹用于训练,其余的轨迹用于测试。
第一个数据集[33],被称为Geolife,包含了从2007年到2010年的17,621条人类移动轨迹。
第二个数据集[23]包含了从2013年到2014年的超过170万条出租车轨迹。
为了减小M的维度,我们选择了城市中心区域的轨迹,并将该区域离散化为50m × 50m的网格单元。
然后,我们删除了记录少于10条的轨迹。经过这样的预处理,我们在Geolife中获得了8203条轨迹,在波尔图中获得了601,071条轨迹。