ARIMA模型

时间序列分析分为两大类:频域分析和时域分析。频域分析也称为谱分析,是一种非常有用的纵向数据分析方法。时域分析主要关心从序列值之间的相关关系对时间序列发展规律。


在时域分析里,生成时间序列数据的随机过程按照统计规律的特征是否随着时间变化而变化分为两类,如果随机过程的特征随着时间变化,如GDP的时间序列一般随着时间稳定增长,则此过程是非平稳的;相反,如果随机过程的特征不随时间而变化,如每年相同季节的气温构成的时间序列是相似的,就称此过程是平稳的。如下图所示,左边的图表示非稳定序列,右边的图表示稳定序列。随机过程的特征有均值、方差、协方差等。随机过程的平稳性决定了将要选择的模型的基本形式,不同类型的时间序列需要不同的分析方法。

ARIMA模型_第1张图片


在非平稳时间序列的分析方法里,根据导致时间序列非平稳的原因是否随机,可以将它们划分为确定性时序分析和随机时序分析两大类。确定性时序分析提取信息的方法主要有趋势拟合模型、季节调整模型、移动平均、指数平滑等方法。
随机时序分析提取信息的方法主要有ARIMA(autoregressive integrated moving average)及自回归条件异方差模型等。ARIMA是当前时间序列分析中最通用的方法,它是先通过差分运算,把长期趋势、固定周期等信息提取出来,将非平稳序列变为平稳序列后进行分析的过程。


下面重点介绍ARIMA及其相关的模型。

ARIMA模型_第2张图片


ARIMA模型_第3张图片


ARIMA模型_第4张图片


ARIMA模型_第5张图片


从上面的公式可以看出,ARIMA模型的基本思想是:某些时间序列是依赖于时间t的一组随机变量,构成该时序的单个序列值虽然具有不确定性,但整个序列的变化却有一定的规律性。ARIMA模型实际上就是差分运算与ARMA模型的组合,因为任何一个序列的波动都可以被视为同时受到了确定性因素和随机性因素的综合作用。ARIMA也称为Box-Jenkins模型。


ARIMA模型的建立:


(1)数据的平稳性处理和白噪声检验
ARIMA模型建模时,首先采用ADF(Augmented Dickey-Fuller)单位根检验来判断数据的平稳性。通常可以画出时间序列的散点图或折线图,来对所研究的时间序列进行大致的平稳性判断。对非平稳的时间序列,一般取对数处理或进行差分处理,然后判断修正后的数据序列的平稳性。若采取差分的形式,此时进行差分的次数就是ARIMA(p,d,q)模型中的阶数d。在差分运算过程中,阶数并不是越大越好,差分运算的过程是信息加工提取的过程,因此,一般差分次数不超过2次。时间序列数据被平稳化处理后,ARIMA(p,d,q)模型就转化为ARMA(p,q)模型。

时间序列中序列值彼此之间没有任何相关性的平稳时间序列,是不能建立模型进行分析的,因为此时序列为纯随机序列,也称为白噪声序列,它意味着此时这些时间序列值所代表的过去行为对将来的发展没有任何影响,这样就不能从中提取到有效信息。白噪声序列具有两个重要性质:(1)纯随机性;(2)方差齐性。纯随机性是判断信息是否被充分提取的重要标准,方差齐性是指序列当中的所有变量的方差相等。只有方差齐性的假定成立时,用最小二乘法得到的未知参数估计值才可以保证准确并有效,否则估计不是无偏的。纯随机性通常采用构造检验统计量,一般为Q统计量。异方差的检验方法采用怀特检验法 。


(2)模型识别
通常在时间序列分析中,采用自相关函数(ACF)、偏自相关函数(PACF)来判别ARMA(p,q)模型的系数和阶数。自相关函数(ACF)描述时间序列观测值与其过去的观测值之间的线性相关性。偏自相关函数(PACF)描述在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。具体判别过程如下面的表格所示。p由显著不为0的偏自相关系数的数目决定,此时序列的偏自相关函数表现为拖尾性,即当k>p时,偏自相关系数的值都在置信区间以内;q由显著不为0的自相关系数的数目决定,此时序列的自相关函数表现为截尾性,即当k>p时,自相关系数的值都在置信区间内。这里的拖尾是指以指数率单调或振荡衰减,截尾是指从某个开始非常小(不显著非零)。在平稳时间序列中,应用自相关函数和偏自相关函数在初步判断ARMA模型的阶数p和q的基础上,然后通过最小信息准则AIC进行定阶。ARMA模型中p和q的的最佳估计可以通过AIC准则给出,AIC比较适合在被观察样本数据较少的情况下使用。

下图是一个均值为0的时间序列

ARIMA模型_第6张图片

做出上面时间序列的ACF和PACF,图中横线为0±两倍标准差,可以判断ACF和PACF是否显著非零。可以看出ACF呈拖尾状,PACF第2个后截尾,可初步断定序列适合AR(2)模型。

ARIMA模型_第7张图片


(3)参数估计
时间序列分析模型的阶数在确定之后,然后应当对ARMA模型进行参数估计。比较常用是最小二乘法进行参数估计,但是在所有的时间序列模型中,MA模型的参数估计相对比较困难,因此,尽量避免使用高阶的MA模型和ARMA模型。


(4)模型验证
通过上述步骤后,应对通过模型取得的估计结果进行检验与诊断,以验证所选用的模型是否合适。这一过程主要检验所拟合的时间序列模型是否客观合理。针对模型的合理性检验,通常从两个方面进行判断:1、要验证所拟合的时间序列
模型的参数估计值是否有显著性;2、要验证所拟合的时间序列模型的残差序列是否是白噪声序列,即残差序列的独立性检验。残差序列可由估计出来的模型计算得到,如果残差序列的自相关函数不显著非零,可以认为是独立的。若这两项验证通过,则认为该模型是合理的,否则,应重新选取模型,上述步骤,选出有效的模型,然后应用该模型进行预测。







你可能感兴趣的:(MLDM,Algorithm)