时间序列模型

模型概述

时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。
时间序列分析是在时间间隔不变的情况下,根据不同时间点的历史数据集合,对未来进行预测,用来了解长期发展趋势。

构成要素

时间序列可以分为长期趋势(trend)、季节变动(seasonal)、循环变动(cycling)和随机波动(irregular)四个部分。

  • 长期趋势( T ):在较长时期内受某种根本性因素作用而形成的总的变动趋势
  • 季节变动( S ):在一年内随着季节的变化而发生的有规律的周期性变动
  • 循环变动( C ):以若干年为周期所呈现出的波浪起伏形态的有规律的变动
  • 不规则变动(I ):一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动
    时间序列模型_第1张图片
    时间序列模型_第2张图片

时间序列的预处理(使数据平稳化和随机化)

拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。

平稳化处理

平稳就是围绕着一个常数上下波动且波动范围有限,即有常数均值和常数方差。如果有明显的趋势或周期性,那它通常不是平稳序列。序列平稳不平稳,一般采用三种方法检验。

时序图检验

平稳序列的时序图显示该序列值始终在一个常数附近随机波动,而且波动范围有界;非平稳序列有明显的趋势性或周期性。
时间序列模型_第3张图片

自相关系数和偏相关系数

平稳序列具有短期相关性,即只有近期的序列值对现时值的影响比较明显,间隔越远的过去值对现时值影响越小。随着延迟期数k的增加,平稳序列的自相关系数会比较快的衰减趋向于0, 并在0附近随机波动;非平稳序列的自相关系数衰减的速度比较慢。
时间序列模型_第4张图片
左边第一个为自相关图(Autocorrelation),第二个偏相关图(Partial Correlation)。
平稳的序列的自相关图和偏相关图要么拖尾,要么是截尾。截尾就是在某阶之后,系数都为 0 。看上面偏相关的图,当阶数为 1 的时候,系数值还是很大 0.914;二阶长的时候突然就变成了 0.050. 后面的值都很小,认为是趋于 0 ,这种状况就是截尾。拖尾就是有一个缓慢衰减的趋势,但是不都为 0 。
自相关图既不是拖尾也不是截尾。以上的图的自相关是一个三角对称的形式,这种趋势是单调趋势的典型图形,说明这个序列不是平稳序列。
平稳序列的自相关系数会快速衰减。

单位根检验

单位根检验是指检验序列中是否存在单位根,如果存在单位根就是非平稳时间序列。
单位根检验:ADF是一种常用的单位根检验方法,它的原假设为序列具有单位根,即非平稳,对于一个平稳的时序数据,就需要在给定的置信水平上显著,拒绝原假设。

利用差分将数据转换为平稳序列

一阶差分指原序列值相距一期的两个序列值之间的减法运算;k阶差分就是相距k期的两个序列值之间相减。如果一个时间序列经过差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA模型进行分析。
确定不平稳后,依次进行1阶、2阶、3阶…差分,直到平稳为止。

随机化处理

纯随机性检验(白噪声检验),由样本各延迟期数的自相关系数可以计算得到检验统计量,然后计算出对应的 p 值。如果 p 值显著大于显著性水平\alpha,则为白噪声序列,可以停止分析。

预处理完成后可以根据处理结果将序列分为不同类型,不同的序列采取不同的分析方法:

  • 纯随机序列(白噪声序列):各项之间没有任何相关关系,序列在进行完全无徐的随机波动,是没有信息可提取的平稳序列。此时可以终止对该序列的分析。
  • 平稳非白噪声序列:其均值和方差是常数。常用的拟合模型是 ARMA 模型。
  • 非平稳序列:均值和方差不稳定,一般将其转变为平稳序列。如果一个时间序列经差分运算后具有平稳性,则该序列为差分平稳序列,可以使用 ARIMA 模型进行分析。
    时间序列模型_第5张图片

时间序列模型

AR模型

自回归模型(Auto Regressive Model)简称 AR 模型,是统计上一种处理时间序列的方法,用同一变数例如x的之前各期,亦即x1至xt-1来预测本期xt的表现,并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测 x(自己);所以叫做自回归。

MA模型

移动平均模型(Moving Average Model)简称 MA 模型,AR大同小异,它并非是历史时序值的线性组合而是历史白噪声的线性组合。与AR最大的不同之处在于,AR模型中历史白噪声的影响是间接影响当前预测值的(通过影响历史时序值)。

ARMA模型

自回归移动平均模型(Auto Regressive Moving Average Model)简称 ARMA 模型,是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。

自回归移动平均模型由两部分组成:自回归部分和移动平均部分,因此包含两个阶数,可以表示为ARMA(p,q),p是自回归阶数,q为移动平均阶数,回归方程表示为:
在这里插入图片描述
从回归方程可知,自回归移动平均模型综合了AR和MA两个模型的优势,在ARMA模型中,自回归过程负责量化当前数据与前期数据之间的关系,移动平均过程负责解决随机变动项的求解问题,因此,该模型更为有效和常用。

ARIMA模型

AR/MA/ARMA模型适用于平稳时间序列的分析,当时间序列存在上升或下降趋势时,这些模型的分析效果就大打折扣了,这时差分自回归移动平均模型也就应运而生。ARIMA模型能够用于齐次非平稳时间序列的分析,这里的齐次指的是原本不平稳的时间序列经过d次差分后成为平稳时间序列。

在现实生活中,存在很多非平稳的时间序列,它们的均值和方差是随着时间的变化而变化的,幸运的是,统计学家们发现,很多时间序列本身虽然不平稳,但是经过差分(相邻时间点的指标数值相减)之后,形成的新时间序列就变成平稳时间序列了。因此,差分自回归移动平均模型写成ARIMA(p,d,q)。p代表自回归阶数;d代表差分次数;q代表移动平均阶数。

预测评价指标

RMSE:均方根误差,该值越大,误差越大。
MAE:平均绝对误差,该值越大,误差越大。
MASE:平均绝对比例误差,它表示预测与朴素平均预测相比有多好。
MAPE:平均绝对百分比误差,该值为0%表示完美模型,MAPE 大于 100 %则表示劣质模型。

你可能感兴趣的:(业务分析方法,数据分析,机器学习)