芝加哥大学的John Paparrizos和Michael J. Franklin
PVLDB Reference Format:John Paparrizos and Michael J. Franklin. GRAIL: Efficient TimeSeries Representation Learning. PVLDB, 12 (11): 1762-1777, 2019.
DOI: https://doi.org/10.14778/3342263.3342648
原文链接:https://pan.baidu.com/s/1Ma0SsR8_iO-GbqMZEwHNQg 提取码:2der
时间序列的分析在科学学科和工业应用中变得越来越普遍。时间序列挖掘技术的有效性和可扩展性在很大程度上取决于三个组成部分的选择:(i)表示;(ii)比较;(iii)索引时间序列。不幸的是,迄今为止,这些组成部分已被独立研究和开发,常常导致产生相互不兼容的方法。缺乏统一的方法阻碍了对大量时间序列集合进行快速准确分析的进展【缺点】。为了解决这个主要缺点,我们提出了GRAIL框架,这是一个通用的框架,用于学习紧凑的时间序列表示形式(a genericframework to learn compact time-series representations),该形式的表示保留了用户可指定比较函数的属性。给定比较函数,GRAIL(i)使用聚类来提取界标时间序列【landmark time series】;(ii)优化必要的参数;(iii)通过将每个时间序列表示为界标时间序列的组合,利用核方法的近似来构造线性时空中的表示形式。我们对GRAIL进行了广泛的评估,进行了时间序列的查询,分类,聚类,采样和可视化。对于这些任务,利用GRAIL表示法与原始时间序列上运行的最新方法相比,速度显着提高,并且一样准确无误。GRAIL将诺言作为一种新的原始方法,用于高度准确但可扩展的时间序列分析。
时间序列[定义]通常是记录的是自然进程(例如地震和天气)或人造工件(例如,股票市场和语音信号)的随时间变化的测量结果[51,38]。最近技术的进步允许在科学应用(例如,天文学[4]和神经科学[16]涉及数百万个时间序列)和工业环境(例如,大型互联网服务每天要处理数十亿次带时间戳的测量[74、94、6])中收集巨大的时变测量[89,77] 。随着物联网(IoT)应用程序的爆炸式增长,时间序列的容量的快速增长有望继续[77]。 因此,时序分析算法将必须在越来越庞大的物联网集合上运行【基本定义,及发展前景】。
【此段描述了时序挖掘方法的挑战】但是,大多数最新的时间序列挖掘方法无法扩展到数百万个时间序列[70、38、9]。观测值的时序和高维性,再加上较大的时间序列量,带来了其他数据类型的分析所没有遇到的严峻挑战[127,38]。具体而言,时序可能会引入失真(请参见第2.3节),这会使时间序列的比较变得复杂化,另外,高维数增加了直接在时间序列上运行方法的计算和存储要求。最后,较大的时间序列量可能会使有效但不可扩展的方法在大规模设置中不切实际。为了应对这些挑战,有效的解决方案需要对三个核心组成部分做出决策[38]:(i)表示方法,以构建保留时序特征的低维表示;(ii)比较方法,应使时间序列的失真保持不变(检验是否失真);(iii)索引方法,该方法将组织 时间序列 以便于从大量集合中快速检索。
【时间序列挖掘方法的缺点】不幸的是,迄今为止,这些组件已被独立研究和开发[38],经常导致相互不兼容的方法。因此,现有的时间序列挖掘方法具有许多缺点:(i)这些方法变得过分昂贵得令人望而却步,因为直接在原始时间序列上操作来避免表示不兼容,(例如,大多数分类方法就是这种情况[9]);(ii)由于这些方法直接利用表示法,因此牺牲了效率的准确性(例如,仅支持低效的p范数的在线聚类方法就是这种情况[36]);或(iii)这些方法 遵循复杂的两步方法 利用 表示法 来修剪 成对比较部分(例如,查询方法就是这种情况,利用与相似性函数不兼容的表示的方法 [130、62、104、61,99])GEMINI: 子序列相似搜索技术:快速时间序列检索
【简要介绍GEMINI框架原理及发展】两步方法(The two-step approach)是加速时间序列挖掘方法的最突出范例。执行两个步骤的原因是 对开创性GEMINI框架的依赖[2,39]【The requirement to perform two steps is due to the dependence on the seminal GEMINI framework】,这为在欧几里得距离(ED)下快速时间序列检索奠定了基础。具体来说,GEMINI(i)构造低维表示;(ii)定义针对此类表示的度量,以降低高维空间中ED比较下界(即,修剪的一部分)。对于不同的距离,两步方法[130、62、104、61]还显示了ED lower bounds the new distance。这是一项艰巨的任务,针对特定比较方法的解决方案,实现了屡获殊荣的研究[39、58、19、25、99]。但是,过多的表示和比较方法[38,119,9,24],以及开发低下界测量(measure)的困难,影响了这种方法的可持续性。
【满足基于GEMINI原理并扩展其原理的 原语要求】缺乏统一的方法阻碍了对时间序列进行快速准确的分析。因此,我们需要一个新的原语(a new primitive)来学习基于GEMINI原理并扩展其原理的时间序列表示。具体来说,给定一个比较函数,学习的表示应:(P1)保留成对相似性,并用作机器学习方法的特征向量;(P2)降低比较函数的下限,以加快相似度搜索;(P3)允许在资源有限的情况下使用表示的前缀(通过按重要性的降序排列它们的坐标)来缩放方法;(P4)支持对新数据进行有效且易于记忆的计算,以实现在 在线设置(online setting) 中 的操作;(P5)支持有效且易于记忆的特征分解,用于数据到数据相似性矩阵,以实现利用依赖于此类基本运算的高效方法。
图1:使用时间序列的 原始表示形式 与 使用DFT和GRAIL计算的大小为20的紧凑表示 比较128个数据集的分类精度。 对角线上的圆圈表示 原始表示优于低维表示的数据集。
【1-NN分类精度:该对象被分到离它最近的邻居所在的类中。】
【GRAIL框架的实验效果—对图1 的解释说明】在本文中,我们开发了一种满足所有上述原理的原语。具体而言,我们提出了Generic Represent At Ion Learning(GRAIL)框架,以自动学习紧凑表示,这个表示保留了用户指定相似性函数的属性。从根本上来说,这与时间序列文献有所不同,在这些文献中,表示方法与后续步骤中使用的相似度函数无关[38]。为了说明这一点的含义,在图1中,我们比较了128个数据集的 最近近邻的(1-NN)分类精度,分别使用了在原始时间序列上的基于形状的距离(SBD)[91,92],和通过(i)离散傅里叶变换(DFT)和(ii)GRAIL计算出的大小为20的两种表示形式上的欧几里得距离ED,其中 DFT是一种最新的表示方法[119,105];GRAIL表示形式保留的距离与我们稍后讨论的SBD相似。原始时间序列上的SBD明显优于DFT表示上的ED,相反,GRAIL表示上的ED至少和在原始时间序列上SBD一样准确,并且速度明显更快。(SBD over raw time series significantly outperforms ED over DFT representations. In contrast, ED over GRAIL representations is at least as accurate as SBD over raw time series and significantly faster.)
we compare the onenearest-neighbor (1-NN) classification accuracies(n.) across 128 datasets [32] using the Shape-Based Distance (SBD) [91, 92] over raw time series against ED over two representations of size 20(修饰two representations) computed by (i) Discrete Fourier Transform (DFT), a state-of-the-art representation method [119, 105](修饰DFT); (ii) our GRAIL representations, which preserve a distance similar to SBD that we discuss later.(修饰GRAIL)
compare … against …两者作比较、SBD和ED处于同等地位
为了学习高度精确的表示,GRAIL利用内核方法来统一数据建模和算法设计[26、53、108、109、7]。GRAIL需要执行两个步骤来学习线性时空中的表示形式:(i)近似(vt. approximate)序列到序列(SS)的相似矩阵;(ii)估计(vt. approximate)SS的特征分解。为了近似估计SS并促进内核函数的适应性(即相似性度量),GRAIL依赖于Nystrom方法[86,123],该方法与内核函数的选择无关。具体来说,GRAIL首先提取时序序列的字典,并构建序列字典(SD)和字典到字典(DD)的相似性矩阵。然后,Nystrom使用这些矩阵构造表示形式,通过将 每个时间序列 表示为 字典中的 时间序列的 线性组合。
Specifically, GRAIL first extracts a dictionary of time-series sequences and constructs the sequenceto-dictionary (SD) and the dictionary-to-dictionary (DD) similarity matrices. Then, Nystrom uses these matrices to construct representations by expressing each time series as a linear combination of the time series in the dictionary.
【Nystrom表示方法的缺陷及改进方法】不幸的是,内斯特罗姆(Nystrom)表示的质量在很大程度上取决于对必要参数的准确估算。此外,尼斯特鲁姆表示的维度可能会超过原始时间序列的维度,这是不希望的。为了避免这些限制,我们提出了一种无监督参数估计的轻量级方法。此外,我们建议利用Nystrom表示对 SS的特征分解 进行 额外的近似,以学习到降维的最终表示。考虑到 使用位移不变比较方法 进行 时间序列分析 的 重要性(请参见第2.3节),我们将通过展示GRAIL如何支持该属性来描述GRAIL。为了减轻 计算大型相似矩阵(例如SD)的高内存和运行时 的成本负担,我们首先展示如何通过将原始时间序列分解为其频率分量 并 通过在 与原始时间序列非常近似的 最初的前几个频率上进行操作 (by decomposing the original time series into their frequency components and by operating over the first few frequencies that well approximate the original time series) 来计算平移不变核(SINK)。为了计算总结可用数据的地标时间序列(landmark time series),我们研究了使用时间序列聚类方法(例如k形[91])进行词典学习的有效性。(we study the effectiveness of using time-series clustering methods, such as k-Shape [91], for dictionary learning.)最后,我们在ApacheSpark[131]的基础上构建了端到端的解决方案,以促进对大量集合的表示学习和时间序列分析。
为了证明SINK和GRAIL的有效性,我们对128个数据集进行了广泛的评估,并将它们的性能与用于五个任务的最新方法进行比较,即(i)查询;(ii)分类;(iii)集群;(iv)抽样;(v)可视化。我们使用公共数据集并提供源代码。总而言之,我们表明 在准确性方面 使用SINK的内核分类器 与 具有最新距离度量的11个1-NN分类器集合 一样强大(we show that kernel classifiers using SINK are as powerful in terms of accuracy as an ensemble of eleven 1-NN classifiers with state-of-the-art distance measures.)。GRAIL表示 比 当前的表示 更准确,并且 比 现有的较低边界度量 具有更好的修剪能力。重要的是,对于所有五个任务,在高维时间序列上进行操作时,GRAIL表示法 与 最新方法相比,显着更快,更准确。最后,我们对 数百万个代表能源使用方式的时间序列 进行了案例研究,以强调我们思想的可扩展性。
我们首先回顾相关背景(请参阅第2节)。 我们提供了我们方法的概述overview(本节3.1),然后介绍我们的贡献如下:
•我们展示了位移不变核函数SINK在时间序列的最初几个低频中的 原理性操作(第3.2节)【We show how SINK, a shift-invariant kernel function, can operate in a principled manner over the first few low frequencies of time series (Section 3.2).】
•我们研究了时间序列聚类对于采用Nystrom法学习字典的有效性(第3.3节)。
We study the effectiviness of time-series clustering for learning dictionaries for Nystr¨om
•我们开发了一种解决方案,用来估计 必要的参数 和 表示的紧凑性(第3.4节)。
•我们介绍了GRAIL,这是我们用于学习紧凑时间序列表示的端到端解决方案(第3.5节)。
•我们在Apache Spark的基础上构建GRAIL,以促进大规模的时间序列分析(第4节)。
•我们通过对五个任务进行广泛的实验评估来评估我们的想法(第5和第6节)。 最后,我们以相关工作(第7节)和我们工作的含义(第8节)为结尾进行讨论。
在本节中,我们回顾了线性和非线性的降维方法(第2.1节)。然后,我们总结了时间序列表示方法(第2.2节)以及常见的时间序列失真和距离度量(第2.3节)。最后,我们提出了关注的问题(第2.4节)。
降维是将高维向量映射到低维空间的过程,同时保留了一些令人关注的属性[29,49]。根据映射,我们将降维方法分为线性方法和非线性方法[67]。为了涵盖必要的概念以理解所提出的思想,我们首先回顾一下线性方法,然后是非线性方法。
线性降维:考虑n个m维实值向量,目标尺寸k
其中矩阵包含左奇异向量,矩阵包含右边的奇异矢量,矩阵Σ=包含沿着对角线降序排列的奇异值其他所有位置都为零。 通过保留第一个k SVD需要时间,但是不幸的是,SVD无法有效地对具有非线性结构的数据进行建模。 相反,内核方法[26、53、107、108、109]通过启用高维特征空间中的操作,在现实世界数据分析中发挥了核心作用。 对于奇异值,它跟我们特征分解中的特征值类似,在奇异值矩阵中也是按照从大到小排列,而且奇异值的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。 非线性降维:具体地说,内核法使用函数隐式地将数据映射到高维(通常是无限长)的 再生内核希尔伯特空间(RKHS)中。 由于无法显式计算H中的坐标,因此内核方法调用“内核技巧” [3],该内核技巧可使用内核函数与数据进行交互。 H或其对应的距离度量 [106]。 为了在H中执行降维,核主成分分析(KPCA)[107,108]对 Gram矩阵K 进行特征分解,其中。KPCA需要O(n2)空间来存储K,需要O(n2)时间来构造K,并且需要O(n3)时间来对K进行本征分解。 Gram矩阵:每个Gram矩阵背后都有一组向量,Gram矩阵就是由这一组向量两两内积得到的,a·b>0 方向基本相同,夹角在0°到90°之间 核矩阵近似算法的核必思想是用部分采样取代所有的数据计算核矩阵 【内核方法的近似】:为减轻与内核方法的高内存和运行时的成本负担,已提出了两种精简的方法来近似K:Nystrom方法[86,123,37]和随机傅里叶特征(RFF)方法[98]。具体地说,Nystrom是一种数据感知方法, 可以从可用数据中计算界标向量,并且需要时间来构造Zd,其中d是界标向量的数量。相反,RFF是一种数据不可知的方法,它从独立的分布中采样特征图,并需要时间来构造Zd,其中d是特征图的数量。 Nystrom近似 为d个向量的线性组合 arg min 就是使后面这个式子达到最小值时的x的取值 对于每一个Xi,这是一个关于a的单列的凸问题,最优解是当 对于这两种方法,近似值的好处是双重的:(i)具有重要意义的 节省内存(significant memory savings),因为Zd仅需要O(nd)空间;(ii)节省大量的运行时间。但是,考虑到 难以在任意核函数上推广RFF的困难 以及 与RFF相比Nystrom令人印象深刻的理论和经验优势 [128],在我们的方法中,我们依靠Nystrom有效地学习时间序列的表示形式。 尽管它们具有最优性[49,29],但精确的线性和非线性降维方法在实践中却过于昂贵。因此,表示方法依靠频谱分解[49、29、95、56、88]来减少时间序列的高维数并降低时间序列分析方法的存储和计算成本。自从GEMINI框架[2,39]首次出现以来,关于表示方法的研究一直集中在探索低维表示之间的权衡,例如重构质量,对噪声的敏感性,紧凑性和计算成本。根据时间序列的转换和输出格式,我们将表示方法分为 数据不可知的方法 和 数据感知方法,以及数字和符号方法[38]。 数据不可知的方法:GEMINI框架使用(傅里叶变换)DFT将时间序列表示为一组正弦系数[2,39]。随后,提出了许多替代DFT的方法,包括离散余弦变换(DCT)[63],离散小波变换(DWT)[22],Daubechies和Haar小波[96、21],Coiflets[111]和Chebychev多项式[19]。对于时间序列更特殊,分段总逼近法(PAA)[129,57]将 时间序列 表示为 分段的平均值。 数据感知方法:与数据不可知方法相反,数据感知方法可调整 可用数据的转换参数 以提高其有效性。例如,依靠频谱分解的数据感知方法选择DFT[117]或DWT[115]系数的子集。PAA的一种数据感知版本使用矢量量化来构建段码本[78,79],而其他方法(即分段线性逼近(PLA)[112]和自适应分段常数逼近(APCA)[58])则适合多项式模型。或分别对每个线段使用恒定近似值。SVD本质上也是一种建议用于表示时间序列的数据感知方法[63,101]。 符号方法:所有先前方法的输出都是数字。符号方法还对数字输出进行量化。例如,符号聚合近似(SAX)[72]和符号傅立叶近似(SFA)[105]依靠字母分别将PAA和DFT表示转换为短词。 先前描述的方法构建了下限或近似ED的表示[135,20]。不幸的是,最近的距离测量实验评估[91,92,35,119,9]表明ED在大多数应用中效果较差。接下来,我们回顾替代性的距离度量。 通过比预处理前的时间序列,距离测量可处理大多数失真(信号在传输过程中与原有信号或标准相比所发生的偏差)(例如,噪声和离群值)[59、60、5、88、48]。但是,对于许多重要的失真而言,预处理是无效的,因此,复杂的距离测量在比较中提供了不变性。(sophisticated distance measures offer invariances during comparison. )。例如,为了满足移位不变性,SBD[91,92]比较 异相位的(out-of-phase)时间序列,而DTW[103] 将时间序列与 未对齐的(misaligned)区域 进行比较。 【 k-shape的一部分】 基于形状的距离SBD,一种无参数的距离度量,以O(mlogm)的运行时间成本比较时间序列。令分别表示x的DFT和逆DFT[56,88],我们计算SBD如下: 通过距离测量来 判断两个序列是否接近,SBD取0到2之间的值,两个时间序列越接近0就越相似 其中*是频域中的复共轭。DTW【求解两时序匹配时累计距离最小所对应的规整函数】动态时间规整DTW,首先构造一个矩阵,每个矩阵中都包含任意两个坐标的ED。【序列x的每一个点和y的每一个点之间的相似度,距离越小则相似度越高】然后,DTW在O(m2)时间中计算M中的翘曲路径,即矩阵元素,并且在可能路径的指数数量中具有最小的翘曲成本: 【A序列上的每个点都有在吧序列中与之相对的距离最近的点,记下最短距离,DTW则是求解两时序匹配时累计距离最小的路径】 由于DTW的高计算成本,受约束的动态时间翘曲(cDTW)通过定义频带,子集矩阵M的形状以及翘曲窗口,频带宽度来仅访问M上的一个单元子集。 我们解决了有效学习紧凑表示的问题,该紧凑表示对于原始高维空间中的任何x和y都保留了给定核函数k(x,y)所具有的不变性。 我们要求学习的表示法满足以下原理: (P1)保留相似性(即); (P2)提供下限度量(即); (P3)允许对坐标的前缀进行操作(即 ); (P4)支持对新数据进行有效且易于存储的计算; (P5)支持K的有效且易记忆的特征分解。
a·b=0 正交,相互垂直
a·b<0 方向基本相反,夹角在90°到180°之间
简单来说就是内积可以反映出两个向量之间的某种关系或联系。2.2时间序列表示方法
2.3不变性和距离测度
2.4问题定义