论文学习——一种基于DTW的符号化时间序列聚类算法

文章目录

  • 1 摘要
  • 2 引言
    • 2.1 类似的工作 SAX
    • 2.2 本文成果
  • 3 相关知识
    • 3.1 极值点EP 成为关键点KP 的条件
    • 3.2 DTW距离
    • 3.3 基于Normal矩阵的谱平分法
  • 4 本文算法
    • 4.1 关键点提取
    • 4.2 基于DTW的符号化聚类算法
  • 5 实验结果与分析
    • 5.1 数据部分
    • 5.2 Synthetic Control 数据集中的序列1到序列4的符号表示
    • 5.3 对于符号化之后得到的复杂网络 再进行划分
  • 6 总结

写在前面:期刊:《软件天地》;不知道这是什么期刊,2011年发表的。

论文学习——一种基于DTW的符号化时间序列聚类算法_第1张图片

1 摘要

  • 提出了一种基于DTW的符号化时间序列聚类算法,对降维后得到的不等长符号时间序列进行聚类。

步骤如下:
第一,先对时间序列进行降维处理,提取时间序列的关键点,并对其进行符号化;
第二,利用 DTW 方法进行相似度计算;
第三,利用Normal矩阵和FCM方法进行聚类分析。

2 引言

  1. 时间序列的相似性,是衡量两个时间序列相似程度的一个重要指标,它是时间序列聚类、分类、异常发现等诸多数据挖掘问题的基础,也是研究时间序列挖掘的核心问题之一。
  2. 欧式距离(Euclidean)和动态时间弯曲距离(Dynamic Time Wraping)是计算时间序列相似性中经常被使用的度量方式。
  3. 欧式距离对时间轴上的轻微变化非常敏感,而且要求时间序列是等长的,在处理一般问题时,欧式距离并没有很好的表现。而动态弯曲距离(DTW)则能很好的消除欧式距离的缺陷。

2.1 类似的工作 SAX

SAX 是一种运用符号化方法对时间序列进行表示、 维度约简及相似性度量的方法。

但SAX方法采用PAA算法将时,是将时间序列平均划分,因此会丢失掉一部分的语义信息;

而如果利用均分点+关键点,同时对序列进行分段,则既考虑了序列本身概率分布变化,又能兼顾到形态的变化。[1]

[1] 《一种基于关键点的SAX改进算法》 闫秋艳

2.2 本文成果

  • 本文提出一种基于DTW的符号化时间序列聚类算法。

①在提取关键点之后,再进行符号化时间序列,以达到降维的目的。
②降维之后得到的符号序列为不等长序列,采用动态时间弯曲距离(DTW)方法进行计算,鲁棒性
好。
③通过DTW得到的距离矩阵构建复杂网络,并寻
找其社团结构,实现了符号时间序列聚类。

3 相关知识

3.1 极值点EP 成为关键点KP 的条件

  • 条件1. x i x_i xi保持极值的时间段与该序列长度的比值必须大于某一个阈值 C C C
  • 若条件1不满足,则包含 x i x_i xi的最小序列规模式< x i − 1 , x i , x i + 1 x_{i-1} ,x_{i},x_{i+1} xi1,xi,xi+1> , 三点连线形成的夹角小于筛选角度 α 0 \alpha_0 α0 。(当然是角度越小越好)

3.2 DTW距离

论文学习——一种基于DTW的符号化时间序列聚类算法_第2张图片

3.3 基于Normal矩阵的谱平分法

  • 需要一个阈值
  • 可以实现复杂网络的划分
    论文学习——一种基于DTW的符号化时间序列聚类算法_第3张图片

4 本文算法

4.1 关键点提取

  • 关于如何选择极值点,这里写的还是蛮清楚的。
  • 就是(1)我没看懂,推论1 在哪呢?
    论文学习——一种基于DTW的符号化时间序列聚类算法_第4张图片

4.2 基于DTW的符号化聚类算法

  • 根据4.1得到的一个关键点序列,计算各段之间的均值,然后用符号表示。也就是生成了一个符号序列
  • 对于两个符号序列,可以用距离度量算法计算距离
  • 最后使用Normal矩阵方法和FCM算法对网络进行划分
    论文学习——一种基于DTW的符号化时间序列聚类算法_第5张图片
    论文学习——一种基于DTW的符号化时间序列聚类算法_第6张图片

5 实验结果与分析

5.1 数据部分

论文学习——一种基于DTW的符号化时间序列聚类算法_第7张图片

5.2 Synthetic Control 数据集中的序列1到序列4的符号表示

  • 这个数据集,共有300条序列数据
  • 每个序列数据的长度都是60
  • 以10为单位均分,得到6个小分段
  • 对于每一个小分段,再求取其中的极值点,例如序列1的 1-10 就用了bc来表示,应该是存在一个极值点!

论文学习——一种基于DTW的符号化时间序列聚类算法_第8张图片

5.3 对于符号化之后得到的复杂网络 再进行划分

论文学习——一种基于DTW的符号化时间序列聚类算法_第9张图片
在这里插入图片描述

6 总结

  • 【前人工作】SAX是一种符号化的时间序列相似性度量方法,该方法在对时间序列划分时,采用了PAA算法的均值划分,均值划分丢失了部分关键信息。
  • 【本文工作】将关键点提取方法与PAA方法相结合,在对原序列降维的同时又能更准确地表示原时间序列。(就是既要考虑均值点,又要考虑极值点)

本文将复杂网络知识和时间序列降维方法相结合,给出了一种时间序列的聚类方法。

该算法用DTW算法计算时间序列间的相似度,而后从时间序列的相似度得到一个复杂网络,此复杂网络表示了时间序列相互间的关系。最后采用Normal矩阵的方法进行网络划分,得到一个网络的社团结构。

从这个社团结构中已能看出样本时间序列的归属类别,但为了结果更加清晰,用具体数字来体现,所以采用了FCM聚类算法进行最后的聚类。

实验结果表明,用DTW方法计算序列之间的相似度结合在降维后的符号化时间序列上比原文KPDIST方法在准确率上有较好大提高。

你可能感兴趣的:(2022.6论文学习,时间序列,DTW,SAX)