时间序列分析—移动平均(MA)及阶数的判定

[TOC]

一、移动平均模型(MA)

1.1 MA定义

定义:当前值是由过去误差的线性组合组成的,误差是服从正态分布并且相互独立的。

q阶公式:

1.2 对MA的理解

自回归与移动平均建模的差异:

  • 移动平均(Moving average,MA)是以过去的残差项,也就是白噪声来做线性组合;
  • AR模型是以过去的观察值来做线性组合;

MA的出发点是通过组合残差项来观察残差的振动MA能有效地消除预测中的随机波动

当时间序列的数值受周期变动不规则变动的影响起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分析预测序列的长期趋势。

举例:比如说,飓风对原油价格的影响,就可以建立移动平均模型去预测趋势。

二、平稳性

  1. 平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去(保持状态~);
  2. 平稳性要求序列的均值和方差不发生明显变化(稳定状态的数学定义~);

2.1 严平稳与宽(弱)平稳

  1. 严平稳:严平稳表示的分布不随时间的改变而改变。

如:白噪声(正态),无论怎么取,都是期望为0,方差为1;

  1. 弱平稳:期望与相关系数(依赖性)不变

未来某时刻的$t$的值$Y_{t}$就要依赖于它的过去信息,所以需要依赖性;

2.2 弱(宽)平稳时间序列的数学特征

  1. 均值$E(Y_{t})= μ$与时间$t$无关的常数;
  2. 方差$Var(Y_{t} )= \gamma$与时间$t$无关的常数;
  3. 协方差$Cov(Y_{t},Y_{t+k} )= \gamma_{0,k}$只与时间间隔$k$有关,与时间$t$无关的常数。
  4. 自相关系数$ρ_{k }=\frac{Cov(y_{t }, y_{t-k})}{\sqrt{Var(y_{t-k)}Var{(y_t)}}}=\frac{Cov(y_{t }, y_{t-k})}{Var{(y_t)}}= \frac{\gamma_{k}}{\gamma_{0}} $

## 2.3 差分法

对于不平稳的时间序列,一般会使用差分的方法得到想要的平稳序列,还可以使用对数变换幂变换等方法。

下图是美国消费者信心指数序列,一阶差分和二阶差分后的序列。
如:下图中最上面的蓝色图像是原始数据,绿色图像一阶差分后的数据,红色图像是二阶差分后的数据,从差分效果来看,实现了平稳的基本需求。

时间序列分析—移动平均(MA)及阶数的判定_第1张图片

三、自相关系数与偏自相关系数

3.1 自相关系数(ACF)

  1. 有序的随机变量序列与其自身相比较;
  2. 自相关函数反映了同一序列在不同时序的取值之间的相关性;(两两取值的相关性)
  3. 公式:$ACF(k)=ρ_{k}=\frac{Cov(y_{t }, y_{t-1})}{Var(y_t)}$;
  4. $ρ_{k}$的取值范围为[-1,1];

## 3.2 偏自相关系数(PACF)

  1. 对于一个平稳$AR(p)$模型,求出滞后$k$自相关系数$ρ_{k}$时,实际上得到并不是$x(t)$与$x(t-k)$之间单纯的相关关系;
  2. x(t)同时还会受到中间$k-1$个随机变量$x(t-1)、 x(t-2)、 ……、 x(t-k+1)$的影响,而这$k-1$个随机变量又都和$x(t-k)$具有相关关系,所以自相关系数$ρ_{k}$里实际掺杂了其他变量对$x(t)$与$x(t-k)$的影响;
  3. 剔除了中间$k-1$个随机变量$x(t-1)、 x(t-2)、 ……、 x(t-k+1)$的干扰之后,$x(t-k)$对$x(t)$影响的相关程度;
  4. $ACF$还包含了其他变量的影响,而偏自相关系数$PACF$是严格这两个变量之间的相关性。

## 3.3 截尾、拖尾

截尾:指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);

拖尾:ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。

截尾:在大于某个常数k后快速趋于0为k阶截尾 ;
拖尾:始终有非零取值,不会在k大于某个常数后就恒等于零(或在0附近随机波动) 。

3.4 小结

  1. ACF

ACF 是一个完整的自相关函数,可提供具有滞后值的任何序列的自相关值。简单来说,它描述了该序列的当前值与其过去的值之间的相关程度。

时间序列可以包含趋势,季节性,周期性和残差等成分。ACF在寻找相关性时会考虑所有这些成分。

直观上来说,ACF 描述了一个观测值和另一个观测值之间的自相关,包括直接和间接的相关性信息。

  1. PACF

PACF 是部分自相关函数或者偏自相关函数。基本上,它不是找到像ACF这样的滞后与当前的相关性,而是找到残差(在去除了之前的滞后已经解释的影响之后仍然存在)与下一个滞后值的相关性。

因此,如果残差中有任何可以由下一个滞后建模的隐藏信息,可能会获得良好的相关性,并在建模时会将下一个滞后作为特征。

注意:在建模时,一般不想保留太多相互关联的特征,会产生多重共线性问题。

四、AR 与 MA的阶数确定

先来看MA,

MA 的阶数q ,通过ACF图获得,在某阶数之后,ACF 会第一次穿过上限置信区间。

时间序列分析—移动平均(MA)及阶数的判定_第2张图片

根据上文知道,PACF 能够捕捉残差和时间序列滞后项的关系,我们能够从附近的滞后项和过去的滞后项得到很好的相关关系。

为什么不用PACF呢?

  1. 因为MA的序列是残差项的线性组合,并且时间序列本身的滞后项不能直接解释当前项(因为它不是一个AR 过程)。
  2. 一个MA过程,它没有季节性或者趋势成分,因此ACF能够捕捉的只是由于残差项带来的相关性。

PACF图最核心的是,它能够提取已经被之前的滞后项所解释的变化,因此,在MA过程中,PACF就“废了”,但适用于AR过程。

由此可得:

  • AR(p) 看PACF
  • MA(q) 看ACF
模型 ACF PACF
AR(p) 拖尾,衰减趋于零 p阶后截尾
MA(q) q阶后截尾 拖尾,衰减趋于零

欢迎关注个人公众号:Distinct数说

你可能感兴趣的:(数据挖掘数据分析)