一、简介

ARIMA模型(Autoregressive Integrated Moving Average model)，差分整合移动平均自回归模型，又称整合移动平均自回归模型，时间序列预测分析方法之一。ARIMA(p,d,q)中，AR是"自回归"，p为自回归项数;MA为"滑动平均"，q为滑动平均项数，d为使之成为平稳序列所做的差分次数(阶数)。"差分"一词虽未出现在ARIMA的英文名称中，却是关键步骤。

平稳性：

平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段时间内仍能顺着现有的形态"惯性"地持续下去。
平稳性要求序列的均值和方差不发生明显变化

严平稳与弱平稳：

严平稳：严平稳表示的分布不随时间的改变而改变，如：白噪声(正态)，无论怎么取，都是期望为0，方差为1
弱平稳：期望与相关系数(依赖性)不变，未来某时刻的t的值Xt要依赖于它的过去信息，所以需要依赖性

差分法：

时间序列在t与t-1时刻的差值

二、ARIMA模型原理

1、AR模型

自回归模型(AR):

描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测
自回归模型必须满足平稳性的要求
p阶自回归过程的公式定义：

是当前值，是常数项，是阶数，是自相关系数，是误差。

自回归模型的限制：

自回归模型是用自身的数据来进行预测
必须具有平稳性
必须具有自相关性，弱自相关系数小于0.5，则不宜采用
自回归只适用于预测与自身前期相关的现象

2、MA模型

移动平均模型(MA):

移动平均模型关注的是自回归模型中的误差项的累加
q阶自回归过程的公式定义：
移动平均法能有效地消除预测中的随机波动

3、ARMA模型

自回归移动平均模型(ARMA)

自回归与移动平均的结合
公式定义：

4、ARIMA模型

ARIMA(p,d,q)模型全称为差分自回归移动平均模型

AR是自回归，p为自回归项；MA为移动平均，q为移动平均项数，d为时间序列成为平稳时所做的差分次数，一般做一阶差分就可以了，很少有做二阶差分的
原理：将非平稳时间序列转化为平稳时间序列然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型

5、相关函数评估(选择p,q值)方法

1、自相关函数ACF公式：

有序的随机变量序列与其自身相比较自相关函数反映了同一序列在不同时序的取值之间的相关性。
公式：
Pk的取值范围为[-1,1]

2、偏自相关函数(PACF)(partial autocorrelation function)

对于一个平稳AR(p)模型，求出滞后k自相关系数p(k)时，实际上得到的并不是x(t)与x(t-k)之间单纯的相关关系
x(t)同时还会受到中间k-1个随机变量的影响而这k-1个随机变量又都和具有相关关系，所以自相关系数p(k)里实际参杂了其他变量对x(t)和x(t-k)的影响。
剔除了中间k-1个随机变量的干扰之后对x(t)影响的相关程度。
ACF还包含了其他变量的影响而偏自相关系数PACF是严格这两个变量之间的相关性。

3、ARIMA(p,d,q)阶数确定：

模型	ACF	PACF
AR(p)	衰减趋于零(几何型或振荡型)	p阶后截尾
MA(q)	q阶后截尾	衰减趋于零(几何型或振荡型)
ARMA(p,q)	q阶后衰减趋于零(几何型或振荡型)	p阶后衰减趋于零(几何型或振荡型)

截尾：落在置信区间内(95%的点都符合该规则)
4、ARIMA(p,d,q)阶数确定
通过上图可知：

MA(q)看ACF
AR(p)看PACF

5、利用AIC和BIC准则：选择参数p、q

AIC:赤池信息准则(Akaike Information Criterion,AIC)
BIC:贝叶斯信息准则(Bayesian Information Criterion,BIC)
k为模型参数个数，n为样本数量，L为似然函数

6、模型残差检验

ARIMA模型的残差是否是平均值为0且方差为常数的正态分布
QQ图：线性即正态分布

6、ARIMA建模流程

1、将序列平稳(差分法确定d)
2、p和q阶数确定：ACF与PACF
3、ARIMA(p,d,q)

三、案例分析

该案例分析用到的数据集是股票数据，有需要的同学可以私信我。

1、数据

%matplotlib inline
import pandas as pd
import datetime
import matplotlib.pylab as plt
import seaborn as sns
from matplotlib.pylab import style
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf,plot_pacf

style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
stock = pd.read_csv('../数据集/时间序列/T10yr.csv',index_col=0,parse_dates=[0])#ARIMA模型指定时间为索引
stock.tail(10)

2、对数据进行重采样

这里我们以数据的关盘价为目标，按每周周一为起始去平均值

stock_week = stock['Close'].resample('W-MON').mean()#进行重采样,以关盘价为分析数据，按每周周一起始取平均
stock_week.head(10)

3、画图展示数据

我们取2000-2015年之间的数据为我们的训练集

stock_train = stock_week['2000':'2015']
stock_train.plot(figsize=(12,8))
plt.legend(bbox_to_anchor=(1.25,0.5))
plt.title('Stock Close')
sns.despine()

4、计算一阶差分

画图展示一下一阶差分的数据，看一下是否取一阶差分

#计算一阶差分
stock_diff = stock_train.diff()
stock_diff = stock_diff.dropna()

plt.figure(figsize=(10,8))
plt.plot(stock_diff)
plt.title('一阶差分')
plt.show()

通过上图观察发现，一阶差分后的走势已经变得相对平稳，我们可以直接去一阶差分就可以了。所以d=1

5、计算ACF、PACF确定p、q

ACF确定q

acf = plot_acf(stock_diff,lags=20)
plt.title("ACF")
acf.show()

通过ACF图，可以看出，从1之后就进入了置信区间，所以q=1
PACF确定p

pacf = plot_pacf(stock_diff,lags=20)
plt.title("PACF")
pacf.show()

通过PACF图可以大体看出1之后也进入了置信区间，所以这里p=1.
这里有一个函数可以调用，只需要数据传入即可，

#在下图分别绘制原始数据的残差图、直方图、ACF图和PACF图
def tsplot(y,lags=None,title='',figsize=(14,8)):
    fig = plt.figure(figsize=figsize)
    layout = (2,2)
    ts_ax = plt.subplot2grid(layout,(0,0))
    hist_ax = plt.subplot2grid(layout,(0,1))
    acf_ax= plt.subplot2grid(layout,(1,0))
    pacf_ax = plt.subplot2grid(layout,(1,1))
    
    y.plot(ax=ts_ax)
    ts_ax.set_title(title)
    y.plot(ax=hist_ax,kind='hist',bins=25)
    hist_ax.set_title('Histogram')
    smt.graphics.plot_acf(y,lags=lags,ax=acf_ax)
    smt.graphics.plot_pacf(y,lags=lags,ax=pacf_ax)
    [ax.set_xlim(0) for ax in [acf_ax,pacf_ax]]
    sns.despine()
    plt.tight_layout()
    return ts_ax,acf_ax,pacf_ax

tsplot(stock_diff,title='stock')

确定好p、d、q之后我们就可以用ARIMA模型进行预测了。

6、ARIMA模型预测

model = ARIMA(stock_train,order=(1,1,1),freq='W-MON')
result = model.fit()
pred = result.predict('20140609','20160201',dynamic=True,typ='levels')#开始时间必须包含在训练集内，预测的时间主要要看一下是否是预测时间点，因为这里我们取得是每周一，所以要注意预测的结束时间必须是每周一
print(pred)

我们这里画图展示一下，

plt.figure(figsize=(10,10))
plt.xticks(rotation=45)
plt.plot(pred)
plt.plot(stock_train)

红色的线是我们预测的时间段，与真实值比较发现，真实值偏低一点，预测值与真实值相比有差异，这也说明股市的凶险，很难能够预测准确。

时间序列ARIMA模型到这里就结束了，有不明白的同学可以在留言私信。

机器学习(十一)：时间序列AIRMA模型及案例分析