时间序列shapelet概述

shapelet概述

  • 原始shapelet分类器有两个主要局限性
    • 加速Shapelet发现。
    • Shapelet变换。
  • 7种基于Shapelet的方法:
            • 快速Shapelet算法(FSH)(Rakthanmanon和Keogh 2013)
            • 可扩展发现算法(SD)(Grabocka、Wistuba和Schmidt-Thieme 2015)
            • 学习时间序列Shapelet(LTS)(Grabocka等人2014)
            • 超快速Shapelet算法(UFS)(Wistuba、Grabocka和Schmidt-Thieme 2015)
            • 使用线性支持向量机分类器(IGSVM)(Hills等人,2014)
            • 融合lasso广义特征向量方法(FLAG)(Hou、Kwok和Zurada 2016)的shapelet变换
            • 对抗动态Shapelet网络Adversarial dynamic shapelet networks(Q Ma, W Zhuang, S Li, D Huang2020)
  • 基于shapelet的11个分类器可以分为以下4类:
    • 1.基于距离的方法
    • 2.基于特征的方法
    • 3.基于集合的方法
    • 4.深度学习方法

原始shapelet分类器有两个主要局限性

首先,它很慢:shapelet发现过程非常耗时。其次,通过使决策树成为算法的一个组成部分,它无法将形状元素与其他分类器结合。
最近基于shapelet的方法解决了这些不足,大致可以分为两类:1)加速shapelet发现;2) 使用Shapelet将数据转换为可由其他分类算法使用的特征空间。

加速Shapelet发现。

Ye和Keogh(Ye和Keogh 2009)提前停止了距离计算,并在搜索最佳shapelet时使用熵剪枝来避免大量计算。Chang等人(Chang等人,2012年)在GPU上实现了shapelet发现的并行版本,显著减少了运行时间。Rakthanmanon和Keogh(Rakthanmanon和Keogh 2013)使用了一种称为符号聚合近(SAX)的技术(Lin等人,2007)将原始时间序列转换为离散低维表示,加快了搜索过程。Grabocka等人(Grabocka、Wistuba和SchmidtThieme 2015)提议修剪相似的形状元素,并使用监督选择过程根据形状元素提高分类精度的程度来选择形状元素。Hou等人(Hou、Kwok和Zurada 2016)提出了一种新的shapelet发现方法,该方法通过使用广义特征向量方法和融合lasso正则化器来学习shapelet位置,以获得稀疏和“块状”解。该方法将shapelet发现任务视为一个数值优化问题,比以前基于shapelet的方法更快。虽然上述方法提高了计算效率,但仍有提高精度的空间。

Shapelet变换。

shapelet变换(ST)算法不是将shapelet发现嵌入到决策树分类器中,而是在数据的单次传递中发现最具判别力的子序列作为shapelet(Lines等人,2012)。形状元素用于将时间序列数据转换为新的表示,其中每个属性是时间序列到其中一个形状元素的距离。Grabocka等人(Grabocka等人,2014年)提出使用梯度下降法直接学习前k个形状元素,而不是在候选子序列中搜索。然后对时间序列应用shapelet变换。Shah等人(Shah等人,2016年)也使用梯度下降法学习Shapelet,但用动态时间扭曲(DTW)距离取代了欧几里得距离测度(Berndt和Clifford,1994年)。Zhang等人(Zhang等人,2016年)将学习的shapelet用于时间序列聚类任务,在聚类之前使用shapelet变换。

7种基于Shapelet的方法:

快速Shapelet算法(FSH)(Rakthanmanon和Keogh 2013)

该方法将原始时间序列转换为离散低维表示,加快了shapelet搜索过程。

可扩展发现算法(SD)(Grabocka、Wistuba和Schmidt-Thieme 2015)

该方法修剪相似的形状元素,并使用监督选择过程根据它们提高分类精度的程度来选择候选形状元素。

学习时间序列Shapelet(LTS)(Grabocka等人2014)

该方法使用梯度下降算法直接学习形状元素。

超快速Shapelet算法(UFS)(Wistuba、Grabocka和Schmidt-Thieme 2015)

该方法使用随机shapelet来加速计算。

使用线性支持向量机分类器(IGSVM)(Hills等人,2014)

该方法使用Shapelet变换获得时间序列的新表示,并使用线性支持向量机作为分类器。

融合lasso广义特征向量方法(FLAG)(Hou、Kwok和Zurada 2016)的shapelet变换

该方法通过使用广义特征向量方法学习shapelet位置,并使用融合lasso正则化器获得稀疏和“块”解。

对抗动态Shapelet网络Adversarial dynamic shapelet networks(Q Ma, W Zhuang, S Li, D Huang2020)

该方法(ADSN)可以动态生成与真实子序列相似的 shapelet

基于shapelet的11个分类器可以分为以下4类:

1.基于距离的方法

包括导数DTW(DDDT W)(Górecki和Łuczak 2013)和导数变换距离(DTDC)(Górecki和Łuczak 2014);这些方法通过预定义的相似性度量来度量两个给定时间序列的相似性,然后可以使用k-最近邻(kNN)进行分类。DDDT W是一种使用两个时间序列之间的DTW距离及其对应的一阶差分序列之间的DTW距离的加权组合的方法。DTDC在DDDT W的基础上,进一步考虑了通过正弦、余弦和希尔伯特变换变换的序列之间的DTW距离。

2.基于特征的方法

包括SFA符号包(BOSS)(Schäfer 2015)、时间序列预测(TSF)(Deng等人2013)、时间序列特征包(TSBF)(Baydogan、Runger和Tuv 2013)和学习模式相似性(LPS)(Baydogan和Runger 2016);这些方法从原始时间序列中提取代表性特征来表示局部或全局模式,然后根据这些特征对其进行分类。SFA符号包(BOSS)使用窗口在序列上形成“文字”,并在每个窗口上使用截断离散傅立叶变换来获得特征。时间序列森林(TSF)将时间序列划分为不同的区间,并计算均值、标准差和斜率作为区间特征,然后随机选择这些区间来训练树木森林。时间序列特征包(TSBF)从随机位置选择多个随机长度子序列,然后将这些子序列划分为较短的间隔以捕获局部信息。学习模式相似性(LPS)也基于区间,但主要区别在于子序列本身被用作属性,而不是提取的区间特征。

3.基于集合的方法

包括弹性集合(EE)(Lines and Bagnall 2015)和变换集合(COTE)(Bagnall et al.2015);这些方法结合不同的分类器以实现高性能。弹性集成是基于11个弹性距离测度的1-NN分类器的组合,并使用投票方案将其组合。变换集合(COTE)使用35个不同分类器的加权投票,其中权重与训练数据的交叉验证精度成比例。

4.深度学习方法

(Wang、Yan和Oates 2017)包括多层感知器(MLP)、全卷积网络(FCN)和残差网络(ResNet)。这些方法的结果来自(Bagnall等人。2017; 王、严和奥茨2017)。这些方法将深度学习模型应用于时间序列分类任务。多层感知器(MLP)由三个完全连接的层组成,每层500个单元,并使用softmax层获得最终结果。全卷积网络(FCN)堆叠三个一维卷积块,每个块中有128、256和128个滤波器,内核大小为3、5和8。在卷积块之后,将特征馈送到全局平均池层和softmax层以获得最终结果。FCN模型使用ReLU激活函数和批量归一化。残差网络(ResNet)堆叠三个残差块,每个残差块由三个卷积块组成。三个残差块中的滤波器数量分别为64、128和128。ResNet还使用全局平均池层和softmax层。

你可能感兴趣的:(机器学习,决策树,聚类)