ARIMA模型学习心得

 

 

 

模型简介

 

“ARIMA”实际上并不是一整个单词,而是一个缩写。其全称是:Autoregressive Integrated Moving Average Model,即自回归移动平均模型。它属于统计模型中最常见的一种,用于进行时间序列的预测。其原理在于:在将非平稳时间序列转化为平稳时间序列的过程中,将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。(引自https://www.jianshu.com/p/9a05472b0e7d)

 

 

模型的优缺点

 

 

优点:

 

 

模型简单,只需要内生变量而不需要借助其他外生变量。

 

 

缺点:

 

要求时序数据是稳定的,或者通过差分化之后是稳定的;本质上只能捕捉线性关系,不能捕捉非线性关系。

 

 

 

ARIMA模型的建模过程

 

 

(原图来源:芮少权,匡安乐.高速公路月度交通量ARIMA预测模型[J].长安大学学报(自然科学版),2010,30(04):82-85+91.)

 

 

模型详细介绍

 

 

1. 平稳性要求

 

ARIMA模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。平稳性可以分为严平稳与弱平稳两类。严平稳指的是数据的分布不随着时间的改变而改变;而弱平稳指的是数据的期望与向关系数(即依赖性)不发生改变。在实际应用的过程中,严平稳过于理想化与理论化,绝大多数的情况应该属于弱平稳。对于不平稳的数据,我们应当对数据进行平文化处理。最常用的手段便是差分法,计算时间序列中t时刻与t-1时刻的差值,从而得到一个新的、更平稳的时间序列。

 

 

2. 自回归模型

 

自回归模型是描述当前值与历史值之间的关系的模型,是一种用变量自身的历史事件数据对自身进行预测的方法。其公式如下:

 

 

其中,yt是当前值;μ是常数项;p是阶数;γi是自相关系数,ϵt是误差值。

 

自回归模型的使用有以下四项限制:

 

该模型用自身的数据进行预测,即建模使用的数据与预测使用的数据是同一组数据;使用的数据必须具有平稳性;使用的数据必须有自相关性,如果自相关系数小于0.5,则不宜采用自回归模型;自回国模型只适用于预测与自身前期相关的现象。

 

 

3. 移动平均模型

 

移动平均模型关注的是自回归模型中的误差项的累加。它能够有效地消除预测中的随机波动。其公式如下:

 

 

其中各个字母的意义与AR公式相同,θi为MA公式的相关系数。

 

 

4. 自回归移动平均模型

 

将自回归模型与移动平均模型相结合,便可以得到移动平均模型。其公式如下:

 

 

在这个公式中,p与q分别为自回归模型与移动平均模型的阶数,是需要人为定义的。γi与θi分别是两个模型的相关系数,是需要求解的。如果原始数据不满足平稳性要求而进行了差分,则为差分自相关移动平均模型(ARIMA),将差分后所得的新数据带入ARMA公式中即可。

 

 

5. 自相关函数与偏自相关函数

 

自相关函数(ACF)是将有序的随机变量序列与其自身相比较,它反映了同一序列在不同时序的取值之间的相关性。

 

 

 

偏自相关函数(PACF)计算的是严格的两个变量之间的相关性,是剔除了中间变量的干扰之后所得到的两个变量之间的相关程度。对于一个平稳的AR(p)模型,求出滞后为k的自相关系数p(k)时,实际所得并不是x(t)与x(t-k)之间的相关关系。这是因为在这两个变量之间还存在k-1个变量,它们会对这个自相关系数产生一系列的影响,而这个k-1个变量本身又是与x(t-k)相关的。这对自相关系数p(k)的计算是一个不小的干扰。而偏自相关函数可以剔除这些干扰。

自相关函数和偏自相关函数可以通过SPSS、MATLAB等工具计算并画出图像,通过图像可以判断出对应的p与q应当如何取值。图像的纵坐标为相关系数,横坐标为阶数,可以看出阶数与相关系数之间是有一定的周期性关系的。而p与q的值便是最小的周期数。如果在之后的计算中发现p与q的取值无法通过模型检验,则再重新调整p与q的值,重新计算即可。

 

 

 

自己用MATLAB写了这个算法的代码,由于个人水平有限,自认为代码的质量很一般,但是好歹解决了自己当时遇到的问题。

https://download.csdn.net/download/qq_27123591/10417814

你可能感兴趣的:(数学建模)