数据分析-ARIMA方法建模步骤总结

ARIMA模型适用于非平稳时间序列数据,其中的I表示差分的次数,适当的差分可使原序列成为平稳序列后,再进行ARIMA模型的建模。

其建模步骤与ARMA模型类似,分为5个步骤:

  1. 平稳: 通过差分的手段,对非平稳时间序列数据进行平稳操作。
  2. 定阶: 确定ARIMA模型的阶数p, q。
  3. 估计: 估计未知参数。
  4. 检验: 检验残差是否是白噪声过程。
  5. 预测: 利用模型预测。

对应的,在商业领域,时间序列预测应遵循如下建模流程。

Created with Raphaël 2.2.0 步骤1: 绘制时间序列图形 步骤2: 是否有季节性 步骤2.1: 使用ARIMA函数,遍历p, d, q 的取值,根据AIC最低者选取最优模型 步骤3: 使用最优模型的参数进行模型估计 步骤4: 检验模型参差的ACF和PACF函数,查看是否还有信息?如果没有相关性,则表明模型设置正确。 步骤5: 使用模型预测 步骤2.2: 如果季节效应的振幅有扩大的趋势,则原始数据取对象,否则不变 步骤2.2.2: 使用SARMIAX函数,遍历p, d, q和季节的p, d, q取值,根据AIC最低者选取最优模型。 yes no

步骤1: 这是必需的,如果不看时间序列的图形,就不能确定是否有季节性。可能有人认为,既然SARIMAX函数的功能可以涵盖ARIMA函数,那就可以统一使用SARIMAX函数遍历所有参数得到最优模型。但是这样做是不可取的,因为SARIMAX函数的参数过多,模型的估计结果不稳定,因此如果数据没有季节行,应尽量选择ARIMA函数进行估计。

步骤2: 参数选取范围在(0,1,2)中即可,很少有参数超过2的情况,即使真的超过2,第3阶的信息也很少,可以忽略。实在有问题,还可以在步骤4中通过观看参差的情况判断是否扩大搜索空间。选取最优模型的依据为AIC或BIC统计量。AIC统计量选取的模型较大,即模型参数较多;BIC统计量选取的模型较小,即模型参数较少。不过绝大部分情况下两个统计量得到的模型是一样的。

步骤3: 使用上一步得到的最优模型进行重新模型估计。模型估计好,可以查看模型的参数。本步骤并没有进行时间序列的平稳性校验,这有两个考虑: 一是平稳性检验的方法众多,statsmodels中提供的adfulle函数其实是聊胜于无,用户不大;二是目前统计学界提供的平稳型检验方法的势(power)都不高,也就是说检验结果不那么有用处。实际上相关系数为0.9以上的AR(1)和ARIMA(0, 1, 0)是不能通过平稳型校验区分开的。因此索性不做平稳型检验,仅依靠AIC或BIC统计量来判断最优模型即可。

步骤4: 该步骤目的是确认模型正确性。如果参差序列的前几阶(比如5阶)自相关,偏自相关函数没有显著的,则说明已经是最优模型。统计学参考书中会使用DW检验(德宾-沃尔森检验),Q-Q检验,Q检验,其实和查看自相关函数区别不大。

步骤5: 本步骤中,如果之前数据取了自然对数,则在使用模型预测后,要对数据取自然指数。

你可能感兴趣的:(数据分析,数据分析)