Traclus轨迹聚类算法

参考链接

轨迹聚类算法分为三步骤:

  1. 轨迹特征点提取,轨迹划分
  2. 轨迹聚类
  3. 分段轨迹聚合

1:原始轨迹划分

划分原则:采用MDL原则(最小描述原则),要求选择总描述长度最小的模型。

MDL原则包括两个部分:

  1. L(H):描述压缩模型(或编码方式)所需要的长度。
  2. L(D|H):描述利用压缩模型所编码的数据所需要的长度。

如图所示:


Traclus轨迹聚类算法_第1张图片
不同轨迹距离计算

Traclus轨迹聚类算法_第2张图片
轨迹划分MDL计算

轨迹划分算法描述


轨迹划分算法:

输入:轨迹TR_i = p_1p_2p_3...p_{len_i}
输出:CP_i集合代表轨迹的特征点
算法:

  1. p_1加入CP_i集合中;(初始点)
  2. startINdex := 1, length := 1;
  3. startIndex + length \leq len_i
  4.   currIndex := startIndex + length;
  5.   cost_{par} := MDL_{par}(P_{startINdex},p_{currIndex});
  6.   cost_{nopar} := MDL_{nopar}(p_{startIndex},p_{currIndex});
  7.   if(cost_{par} > cost_{nopar}) then
  8.     将p_{currIndex-1}加入CP_i集合;
  9.     startIndex := currINdex - 1,length := 1;
  10.   else
  11.     length := length + 1;
  12. p_{len_i}加入CP_i集合;

算法思想:

  我们近似划分轨迹的关键思想是将局部最优集合视为全局最优。当假设p_ip_j仅是特征点时,令MDL_{par}(p_i,p_j)表示p_ip_j(i < j)之间的轨迹的MDL成本(= L(H) + L(D|H))。当假设在p_ip_j之间没有特征点时,即当保留原始轨迹时,令MDL_{nopar}(p_i,p_j)表示MDL成本。我们注意到MDL_{nopar}(p_i,p_j)中的L(D|H)为零。然后,局部最优是最长轨迹分区p_ip_j,其满足每k的MDL_{par}(p_i,p_k)≤MDL_{nopar}(p_i,p_k),使得i < k ≤ j。如果前者小于后者,我们知道选择p_k作为特征点会使MDL成本小于不选择它。此外,为了简洁起见,我们尽可能地增加该轨迹分区的长度。我们为轨迹中的每个点计算MDL_{par}MDL_{nopar}(第5~6行)。如果MDL_{par}大于MDL_{nopar},我们将前一个点p_{currIndex-1}插入到特征点的集合CP_i中(第8行)。然后,我们从那一点开始重复相同的过程(第9行)。否则,我们增加候选轨迹分区的长度(第11行)。

2. 轨迹聚类算法

基于密度的聚类算法,思想同DBSCAN算法:


Traclus轨迹聚类算法_第3张图片
核心线段等示例

线段聚类算法:

输入:1. 线段集合:D = {L_1,L_2,...,L_{num_{l_n}}}
   2. 两个参数\epsilonMinLns
算法:

  1. 设置clusterId 为0; /* 初始化ID */
  2. 将D中所有线段标记为未分类;
  3. 对每个线段L(L ∈ D):
  4.   如果线段L为未定义线段,那么:
  5.     计算L的邻域N_ε (L)
  6.     如果$(|N_ε (L)| ≥ MinLns) ,那么:
  7.       分配clusterId∀X ∈ N_ε (L)
  8.       将N_ε (L) - {L} 插入队列 Q;
  9.       扩展,ExpandCluster(Q, clusterId, ε, MinLns);
  10.       clusterId +1; /* 新的id */
  11.     else
  12.       标记 L 为噪声点;
  13. 将线段∀L ∈ D 分配到自己的聚类C_{clusterId}中;
       /* 检查线段轨迹基数 */
  14. 对每个C(C ∈ O):   /* 当类中的线段基数大于MinLns时该类可用,否则删除掉该类 */
  15.    如果(|PTR(C)| < MinLns),那么:
  16.     从O集合中删除集合C;
       /* 函数ExpandCluster()计算密度相连集合 */
  17. ExpandCluster(Q, clusterId, ε, MinLns) {
  18.   当 (Q \neq \emptyset) 时:
  19.     M := Q中的第一条线段;
  20.     计算 N_ε (M)
  21.     如果(|N_ε (M)| ≥ MinLns) ,那么:
  22.       对于每个X,(X ∈ N_ε (M))
  23.         如果 X 未定义或者为噪声点,那么:
  24.            分配clusterId给X;
  25.         如果X未定义,那么:
  26.           将X插入队列Q;
  27.     从队列Q中移除M;
  28. }

3. 轨迹可视化即轨迹聚合

  基于密度分为多个簇,然而对于一个簇中所有轨迹的走向及其它特征并没有直观简洁地展示出来,因此有必要提取簇中的整体信息并用可视化的手段展示出来方便进一步分析。
  一种可行的方法是计算簇中的平均轨迹,用平均轨迹来代表整个簇中轨迹的整体信息。原文中将这条轨迹形象地称为“代表性轨迹(Representative Trajectory)”。
  用一条垂直于簇中线段的平均走向的直线扫描各条线段,每次经过一条线段的起点或终点时都要判断一下此时相交线段的个数是否不小于MinLns。若是,则计算一个所有交点的平均点并存储于列表中,否则不予理会。最终生成的列表即为平均轨迹的结点坐标信息。
  这里忽略了一个问题,簇中线段的平均走向如何计算?
  原文中是将簇中所有的线段用向量表示,向量的长度为线段的长度,将所有向量相加并单位化即可代表簇中线段的平均走向。
  除此之处,由于算法要反复计算扫描直线与簇中线段的交点,如果扫描直线与x轴所成角度不为90度的整数倍,则计算量稍大。因此算法对此进行了预处理,将坐标系旋转使X轴与平均走向平行,这样计算起来就方便许多。


Traclus轨迹聚类算法_第4张图片
簇轨迹hebing
轨迹可视化算法

输入:1. 一个C_i
   2. MinLns
   3.一个光滑的参数\gamma
输出: C_i簇的代表性轨迹PTR_i
算法:

  1. 计算线段的平均垂直向量\vec{V}
  2. 旋转坐标轴,使得X坐标轴平行于\vec{V}
  3. P为C_i簇中线段开始和结束点的集合;
      /* X‘的值代表了X’坐标轴*/
  4. 依据X'坐标轴的值将P中的点排序;
  5. 对每个p,(p ∈ P) :
  6.   num_p代表包含点p的线段数量
  7.   如果num_p \geq MinLns,那么:
  8.     diff := p和之前的点之间的距离;
  9.     如果diff \geq \gamma,那么:
  10.       计算平均坐标值avg'_p
  11.       撤销坐标轴的旋转并获得点avg_p
  12.       将avg_p加入到PTR_i的末尾;

你可能感兴趣的:(Traclus轨迹聚类算法)