如何通过轨迹相似性度量方法,发现新冠易感人群
轨迹作为一种时空数据,指的是某物体在空间中的移动路径,通常表示为GPS点的序列,例如tr=
带有停留行为的轨迹:包含平均坐标、到达时间(S.arvT)和离开时间(S.levT)的信息。
【1】Dataset: GestureMidAirD1。26个界面命令手势
【2】Singapore’s police now have access to contact tracing data
【3】corona virus.jhu.map
【4】 Location-based online social networks: Gowalla / Brightkite 数据集。
该数据集由微软研究院发布。其收集了 182 个用户从 2007 年 4月到 2012 年 8 月的轨迹数据,数据按照严格的时间序列,生成了 17 621 条轨迹,共有 48 000 多小时的记录。记录了用户的工作地点和户外活动等。该数据集是用来进行用户相似度估算、隐私保护、户外推荐和数据挖掘的切合数据.
【5】[Beijing Taxi Data Set] This is a sample of T-Drive trajectory dataset that contains a one-week trajectories of 10,357 taxis. The total number of points in this dataset is about 15 million and the total distance of the trajectories reaches 9 million kilometers.
【6】微软亚洲研究院Geolife项目,GPS轨迹数据(py绘图),github,Python GPS 轨迹聚类(附代码)
【7】 Brinkhoff轨迹生成器,利用德国奥尔登堡市交通网络图作为输入,生成n条移动轨迹。
【8】 HKUST 智慧城市研究小组
【9】 出租车gps轨迹
【10】 滴滴快的智能出行平台数据2016年8月-成都
【*1】GPS轨迹数据集整理
【*2】
【*3】基于地理位置的用户兴趣推荐有哪些常用数据集?
【1】 北卡罗来纳州选民登记数据集(NCVR)
定位介绍:如何知道你想找的人的位置(想找到你想找的人)
应用场景:
云计算领域
【1】 时序数据特征提取
【2】 时间序列的自回归模型—从线性代数的角度来看
【3】【3】停留点:HGSM——基于层级结构图的相似度分析
【4】 轨迹相似度计算方法汇总
欧式距离是计算每个时间点上轨迹对应的两个点
的欧式距离, 加权欧式距离是将轨迹点在时间维度上
划分, 每个时间段内的特征点进行特征提取, 并给不同
的时间段赋予不同的权值, 例如, 筛选家庭成员则给予
夜间时间区间以较高的权值, 筛选学习工作同伴则给
予日间时间区间以较高的权值.
【1】
【2】
【3】 使用HMM与osmnx进行地图匹配
python - 如何根据时间对齐数据?:switch开关
《Time-series clustering – A decade review》
3.1. Finding similar time-series in time
Euclidean distance measure are proper for this objective.
Fourier transforms, wavelets or Piecewise Aggregate Approximation (PAA). Keogh and Kasetty
3.2. Finding similar time-series in shape
elastic methods such as Dynamic time Warping (DTW)
3.3. Finding similar time-series in change (structural similarity)
Hidden Markov Models (HMM) or an ARMA process.
This approach is proper for long time-series, not for modest or short time-series.
【1】【2】github: Timeseries Classification: KNN & DTW
【时序分割】2017KDD论文 Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series(TICC)
【1】 [KDD2022] Spatial-Temporal Trajectory Similarity Learning in Road Networks (轨迹表示学习)
【1】
【2】
【3】附Python代码
【4】Professor Keogh’s homepage
【1】Shapelet : 一种象形化的时间序列特征提取方法
【2】
【1】轨迹数据预处理
1)Douglas-Peuker 算法(DP)
【1】
2)垂距限值法
3)Top-Down Time Ratio (TDTR)
【1】 Python中的Levenshtein距离和文本相似度
【2】 信息检索导论读书笔记(三):词典及容错式检索(通配符查询、拼写校正)
【3】 最接近字符串匹配算法
距离度量算法,包括Euclidean算法,用于地址信息项的字段值字符串的相似度计算;
相似性度量算法,包括Cosine算法、Dice算法、Jaccard算法和Overlap算法,用于地址
信息项和分段处理后的数字信息项的字段值字符串的相似度计算;
最长公共子序列算法,包括Needleman-Wunsch算法,用于地址信息项、数字信息项和语
句信息项的字段值字符串的相似度计算;
编辑距离算法,包括Levenshtein Distance算法、Smith-Waterman算法、Jaro算法和
Jaro-Winkler算法,用于地址信息项、数字信息项和语句信息项的字段值字符串的相似度
计算。
【1】 生物信息学经典算法之双序列比对
【2】 字符串与模式匹配算法(六):Needleman–Wunsch算法
【3】 详解序列比对算法 01 | 两条序列比对与计分矩阵
【4】 做出漂亮的序列比对alignment图——ENDscript/ESPript
社交媒体中的时空轨迹模式挖掘TrajectoryPatternMininginSocialMedia.PDF
论文pdf
【代码GitHub】 Q. Li, Y. Zheng, X. Xie, Y. Chen, W. Liu, and W.-Y. Ma, “Mining user similarity based on location history”
由于轨迹在采集的时候可能会存在大量采样点缺失的轨迹段,而对象的同一种运动行为形成的轨迹在空 间上和时间上应该都比较接近,因此Hung等人通过识别 时空上相似的轨迹,而推断出轨迹中缺失采样点 [16] 。 如图10所示,前三条轨迹的采样点缺失十分严重,通过 CATS(CATS: Clue-Aware Trajectory Similarity)方法,可以找出同一模式的轨迹,将他们的采样点相互补 充,得到一条采样完整的轨迹。CATS可以支持局部时间扭曲,对轨迹的采样率和长度都没有要求,并且对噪声具有鲁棒性。
【1】
【1】 将一维时间序列转化成二维图片
【1】LSH系列3:p-stable LSH&E2LSH——原理介绍
【2】LSH那些事儿 (IV): p-stable LSH
【1】 JUST技术:JUST高效时空索引揭秘及使用指南
Hilbert填充曲线
生成方法:
面向字节技术方法、几何方法、L系统方法、IFS迭代函数系统方法等。此外,陈宁涛等提出的方法,采用“矩阵复制、翻转、迭代”的思想,解决大型Hilbert填充曲线生成的效率问题
【1】Hilbert曲线介绍以及代码实现
【2】地理空间索引实现:z 曲线、希尔伯特曲线、四叉树, 最邻近几何特征查询、范围查询
经纬度的距离
Computing with Spatial Trajectories 2011 书 Slides
Chapter 2 Trajectory Indexing and Retrival
时空交通数据预测方法及应用
一些对时间序列数据的理解
基于GPS轨迹数据的检索、分析和挖掘
【文献】Trajectory-Paper-Collation
【代码】Trajectory Similarity Search in Apache Spark