多元时间序列分析

背景

时间序列分析

时间序列分析就是对可以获得的部分的系统输出数据进行分析,提取其蕴含的系统特征,构造对应的等价系统,从而完成对该系统的功能刻划,并依据相应的模型完成对系统未来行为预测的过程。从本质上讲,时序分析仍然是发现规律和运用规律的过程。【原文来源】

方法

当前的时序分析技术主要包括随机时序分析、状态空间重构和神经网络等。下面我们将对这三种主要的时序分析技术加以详细的介绍和分析。

1)随机时序分析

随机时序分析技术,就是传统意义上的时序分析技术。常用的ARMA建模就是随机时序分析技术中的一部分。随机时序分析以随机过程理论作为其数学基础,试图通过对时序数据进行分析,完成对时序系统的预测、建模和控制。该方法的基本思想是将所观测的时序作为系统的一维或多维输出,同时把模型所描述的等价系统视为与输出同维的白噪声驱动下产生该输出的系统。随机时序分析处理的对象是线性系统和同质非线性系统(即可以转化为线性系统的非线性系统)的时序数据。

2)状态空间重构

非线性系统的问题很早就已经引起了研究人员的注意,但从Lorenz的混沌效应的发现起才开始逐渐被许多学科研究领域关注。混沌是确定性系统中出现的一种貌似无规则的、类似随机的现象。确定性系统的短期行为是完全确定的,只是由于对初值依赖的敏感,使得长期的行为不可确切预测。

1950提出的时间延迟嵌入理论(Time一DelayEmbedding)是在时间分析研究的一次突破。时间延迟嵌入理论基于微分拓扑和动力学系统的一些思想提出,用于辨识由确定性系统产生的时序数据,并抽取蕴含在观察数据下的系统几何特征。它由Rulle和Packard等人于1980提出,然后aTkesn在1981年证明了它的第一引理,接下来由Saucer等人对其进行了深化和加强。其中aTkensl291定理是其核心部分。他证明,在给定条件下,一个未知系统的状态空间可以按一种特定的方式重建。

3)神经网络

神经网络技术通过模仿大脑神经元工作的机制对系统历史、经验的数据进行学习,从而建立研究系统的等价模型。Kolmogorvo连续性定理为神经网络奠定了坚实的理论基础。它证明了存在一个三层网络,其隐单元输出函数为非线性函数,输入及输出单元函数为线性的函数,此网络的总输入输出关系可以逼近任意一个非线性函数。因为任何一个时间序列都可以看成一个由非线性机制确定的输入输出系统,所以Kolmogorvo定理从数学上保证了用神经网络对时间序列预测的可行性。

多元时间序列

现实世界中存在大量的多元时间序列类型的数据, 如航天飞船等重要仪器的运行状态数据、互联网中关键服务器的通讯流量数据、应用于多种行业的人体运动捕捉数据等. 广义上讲, 任何包含多变量数据存储的数据集均可视为多元时间序列.

时间序列数据挖掘是针对时间序列的模式发现过程, 旨在研究隐含在时间序列中更深层次的知识[1].时间序列数据挖掘包括时间序列的相似性查询、趋势分析、周期分析、时态关联规则挖掘、异常检测等内容.其中,相似性查询是多元时间序列分析的研究重点所在,其具体研究内容分如下两点,

1、时间序列特征表示

1)分段线性表示方法
分段线性表示是一种使用线性模型来对时间序列进行分割的方法,根据不同的分割方法可以使用不同的分割策略来实现,如滑动窗口、自底向上和自顶向下。利用滑动窗口和自底向上方法的时间复杂度为序列长度的平方阶, 而自顶向下的时间复杂度为线性阶。滑动窗口在一些情况下对时间序列的拟合效果较差,不能很好地反映原时间序列的变化信息。

2)分段聚合近似表示方法
分段聚合近似( piecewise aggregate approximation, PAA) 是通过对时间序列进行平均分割并利用分段序列的均值来表示原时间序列的方法。

3)符号化表示方法
符号化表示方法是一种将时间序列转换为字符串序列的过程。在时间序列数据挖掘过程中,传统方法主要依赖于定量数据,远远不能满足数据挖掘领域中分析和解决问题的要求。在数据结构和算法设计中,字符串具有特定的数据存储结构以及较为成熟且高效的操作算法。

4)基于域变换的表示方法
将时间序列根据信号处理的方式实现时间域与频率域之间的转换,再利用频率域下的有限个特征数据来近似表示原始序列。离散傅里叶变换( discrete Fourier transform, DFT) 和离散小波变换( discretewavelet transform,DWT) 是这种时频变换方法中最具代表性的两种方法,它们具有一定的联系,同时存在较大的区别。

5)奇异值分解表示方法
奇异值分解( singular value decomposition, SVD) 是一种以主成分分析方法为驱动引擎的分析方法,它利用数值计算中的KL 分解方法将高维时间序列转换为低维数据, 进而达到降维目的。

6)基于模型的表示方法
基于模型的表示方法通过事先假定时间序列数据是由某个模型产生,如回归模型、 隐马尔可夫模型和神经网络等,通过构造合适的模型,然后使用模型的参数或系数来实现时间序列的特征表示。

2、相似性度量

相似性度量( 距离度量) 是衡量不同对象之间的相互关系的方法。在时间序列数据挖掘中,相似性度量是一项重要而又基础的任务。通常情况下,时间序列特征表示方法都伴随着相应的时间序列相似性度量方法,用来度量特征表示后的时间序列的相似性。

1)欧氏距离
欧氏距离是一种最为简单且可直接被应用于度量两条长度相等的时间序列,但多数情况下, 它将结合时间序列的特征表示方法来对时间序列进行距离度量。

2)动态时间弯曲
动态时间弯曲( dynamic time warping, DTW)是一种通过弯曲时间轴来更好地对时间序列形态进行匹配映射的相似性度量方法。

3)符号化距离
符号化表示方法可以将时间序列转换成字符串,其相似性度量方法也相应地由定量数据的距离度量转换为定性符号的距离度量。

4)基于模型和压缩的距离度量
基于模型的距离度量方法考虑了时间序列数据产生过程的先验知识,通过对每条时间序列建立模型并计算出使用该模型从某一时间序列产生另一序列的似然值,进而实现时间序列的相似性度量。

平稳数据分析方法:
1)最小二乘法
2)自回归移动平均法(ARMA)

你可能感兴趣的:(多元时间序列分析)