ARIMA简介

1. ARIMA概述

ARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA), p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。
自回归方法基于假设当前时期的指标值依赖于过去时期的指标值,对过去时期的指标值进行加权平均得到当前的指标值;移动平均方法的思想是模拟指标值的随机性,指标值受白噪声序激励的影响。

2. 检查TS是否平稳

除非时间序列(Time series)是平稳的,否则不能建立一个时间序列模型。在很多案例中时间平稳条件常常是不满足的,所以首先要做的就是让时间序列变得平稳,然后尝试使用随机模型预测这个时间序列。有很多方法来平稳数据,比如消除长期趋势,差分化。

2.1 评判标准 

1. 均值 ,是与时间t 无关的常数。下图(左)满足平稳序列的条件,下图(右)很明显具有时间依赖。 

2. 方差 ,是与时间t 无关的常数。这个特性叫做方差齐性。下图显示了什么是方差对齐,什么不是方差对齐。(注意右手边途中的不同分布。) 

3. 协方差 ,只与时期间隔k有关,与时间t 无关的常数。如下图(右),可以注意到随着时间的增加,曲线变得越来越近。因此红色序列的协方差并不是恒定的。 

2.2 ADF检验

Augmented Dickey-Fuller test(增项DF单位根检验) 计量经济学的时间序列分析中,检验时间序列模型有无单位根的检验方法。 ADF检验是增项DF检验,保证了DF检验中随机误差项的白噪声特征。DF检验由Dickey和Fuller于1979年提出。DF检验用于检验变量的非平稳性。若时间序列模型中含有单位根,则模型是非平稳的。

2.3 ACF和PACF检验

如果ACF和PACF至少一个不是指数形式或正弦形式拖尾,那么该序列不是平稳序列,详见4。

3. 平稳序列

将一个不平稳的时间序列转化为平稳的时间序列。 

3.1 去除确定性趋势 

一些非平稳的时间序列往往表现出共同的变化趋势,而这些时间序列本身不一定有直接的关联关系,这时对这些数据进行回归,尽管具有较高的R²,但其结果没有任何实际意义。这种现场被称之为虚假回归伪回归

 为了避免这种伪回归,通常会引入作为趋势变量的时间,这样包含有时间趋势变量的回归,可以消除这种趋势性影响。这样消除的是确定性的趋势变量,随机性的趋势性变量需用差分消除。

x(t) = (mean + trend * t) + error

3.2 差分

差分后是对序列的差分的结果建立模型而不是真正的序列。例如:

x(t) – x(t-1) = ARMA (p ,  q)

这个差分也是ARIMA的部分。现在我们有3个参数了:

p:AR
d:I
q:MA

3.3 Box-cox

Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。做Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。 也就是说,在实际使用数据分析的时候,想对数据做正态性假设,但是数据往往是不是正态分布的,这个时候考虑Box-Cox变换。 

4. 找到最优参数

使用ACF(自相关函数)和PACF(偏自相关函数)找到参数p,q。由于此步骤需要数据分析师人工判断,且可能有多组参数,需一一对比检验;因此ARIMA模型自动化很困难

ACF / PACF条形图是衰减的指数型或正负相间的正弦型波动,称之为拖尾;ACF / PACF在某一个Lag之后很小,且在置信区间内,称之为截尾

用ACF和PACF判断ARIMA模型参数(不一定严格

模型
AP(p)
MA(q)
ARMA(p,q)
PACF条形图 在第p个条(Lag)后截尾 拖尾 在头p个条没有固定规律,其后拖尾
ACF条形图 拖尾 在第q个条后截尾 在头q个条没有固定规律,其后拖尾

如果ACF和PACF至少一个不是指数形式或正弦形式拖尾,那么该序列不是平稳序列。如果ACF和PACF没有任何模型,而且数值都很小,那么这个序列可能就是一些互相独立的无关随机变量,常用来检测残差是否随机。

5. 预测及评价模型

评价模型主要看预测后的预测值和实际值的残差。

5.1 连续残差不自相关

5.1.1 Ljung-Box 

Ljung-Box test是对randomness的检验,或者说是对时间序列是否存在滞后相关的一种统计检验。对于滞后相关的检验,我们常常采用的方法还包括计算ACF和PCAF并观察其图像,但是无论是ACF还是PACF都仅仅考虑是否存在某一特定滞后阶数的相关。LB检验则是基于一系列滞后阶数,判断序列总体的相关性或者说随机性是否存在。 
 时间序列中一个最基本的模型就是高斯白噪声序列。而对于ARIMA模型,其残差被假定为高斯白噪声序列,所以当我们用ARIMA模型去拟合数据时,拟合后我们要对残差的估计序列进行LB检验,判断其是否是高斯白噪声,如果不是,那么就说明ARIMA模型也许并不是一个适合样本的模型。

5.1.2 ACF,PACF

如果ACF和PACF没有任何模型,而且数值都很小,那么这个序列可能就是一些互相独立的无关随机变量,详见4.

5.1.3 D-W

 

德宾-沃森(Durbin-Watson)检验。德宾-沃森检验,简称D-W检验,是目前检验自相关性最常用的方法,但它只使用于检验一阶自相关性。因为自相关系数ρ的值介于-1和1之间,
  • 所以 0≤DW≤4。并且DW=0=>ρ=1   即存在正自相关性 
  • DW=4<=>ρ=-1                               即存在负自相关性 
  • DW=2<=>ρ=0                                即不存在(一阶)自相关性 

 

因此,当DW值显著的接近于0或4时,则存在自相关性,而接近于2时,则不存在(一阶)自相关性。这样只要知道DW统计量的概率分布,在给定的显著水平下,根据临界值的位置就可以对原假设H0进行检验。

5.2 残差正态分布

检验残差是否是正态分布,常用方法有QQplot。

6. 模型间比较

1. MSE、MAPE

2. 准确率

3. AIC法则

附:R中ARIMA的一般流程

参考资料:

http://blog.csdn.net/u010414589/article/details/49622625

https://www.otexts.org/fpp/8/7

http://wenku.baidu.com/link?url=b34APzBjz-cGLoxsG4-nvbwKy7FLgPk5n4nzC9w-pWQP7pc4MycpyQZil4Oe5I0285cMGz1WX79Q4aExF8Ft-n0okdqgNs4DhkRsSIWZ2zq


你可能感兴趣的:(时间序列,算法)