题外话:前段时间做了一点时间序列预测,积累了一点经验,写出来与大家分享一下。能力有限,若是有错误,请指正。本文理论内容不会特别多。
1.时间序列预测
时间序列预测,主要就是依靠过去和现在的数据,分析两者之间的关系,然后利用得到的这个关系去预测未来的数据。现在主要运用在股票和人口等的预测上。个人觉得时间序列预测与其他预测不同的,通常时间序列预测只有1维数据,所以很多机器学习方法不能直接使用。
2.时间序列预测模型
下面来说一下我做时间序列预测时用到的模型,首先是很简单的灰色预测模型,之后是非常普遍的ARIMA系列模型。
2.1灰色模型
灰色预测模型(Gray Model),这种模型的思想很简单,常用来对数据进行预测,在时间序列预测上的应用不是特别多。关于这个模型具体可以参考参考:https://blog.csdn.net/qq547276542/article/details/77865341
关于这个模型,我想说明的只有一点,就是这个模型的预测结果,无论是对训练集的拟合结果,还是预测的结果,除了第一组数据能够准确预测意外,其余的预测数据都呈单调递增或递减趋势。这点可以用理论证明:
由上述内容可以知道,灰色模型的预测值计算表达式为:
$$x^{(0)}(k+1)=x^{(1)}(k+1)-x^{(1)}(k)$$
$$=[(x^{(0)}(1)-\frac{b}{a}){\rm e}^{-ak}+\frac{b}{a}]-[(x^{(0)}(1)-\frac{b}{a}){\rm e}^{-a(k-1)}+\frac{b}{a}]$$
$$=(x^{(0)}(1)-\frac{b}{a})(1-{\rm e}^{a})({\rm e}^{-ak})$$
为了方便我把上式改写成了常见的方程形式如下:
$$y=(m-\frac{b}{a})(1-{\rm e}^{a}){\rm e}^{-ax}$$
对上式求一阶导数得到:
$$y^{'}=-a(m-\frac{b}{a})(1-{\rm e }^a) {\rm e }^{-ax}$$
简单的分析就可以知道,上式的符号不会发生变化,所以可以得到上面递增递减的结论。
2.2 ARMA、ARIMA模型
ARMA模型全程为自动回归积分滑动平均模型(Autoregressive Integrated Moving Average Model),网上对这个模型的介绍以及使用介绍的都非常多了,这里就省略了。因为刚开始做ARIMA实验的时候,对这个模型不太了解,所以我的实验参考了这篇博客。https://www.cnblogs.com/foley/p/5582358.html
在具体的实验里,我们采用的拟合方式是把时间序列划分成3个序列(trend,seasonal,residual),然后对其中的各个部分分别进行拟合。但我们在实验中发现seasonal序列是一个有规律的序列(如下图,从图中可以看出从1949-01-01到1949-12-01所对应的数据与195-01-01到1950-12-01的数据一一对应,这12个数据重复出现。),所以对这个序列并没有进行拟合而直接使用。
对剩余的两部分分别拟合后。在把拟合后得到的三个序列相加就可以得到最终的拟合结果。并使用最终的模型预测未来5个月的数据。具体代码如下:
from statsmodels.tsa.arima_model import ARMA
import statsmodels as sm
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.stattools import adfuller
if __name__ == '__main__':
mpl.rcParams['font.sans-serif'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = False
data=pd.read_csv('AirPassengers.csv',header=0,names=['date','peo_num'])
data = pd.Series(data["peo_num"].values, \
index=pd.DatetimeIndex(data["date"].values, freq='MS'))
decomposition=seasonal_decompose(data,model='additive')
trend=decomposition.trend
seasonal=decomposition.seasonal
residual=decomposition.resid
#对三部分分别进行拟合
trend.dropna(inplace=True)
trend_diff=trend.diff(periods=2)
trend_diff.dropna(inplace=True)
#分别对三部分进行拟合z
order_trend=sm.tsa.stattools.arma_order_select_ic(trend_diff)['bic_min_order']
#order_trend=(3,2)
model_trend=ARMA(trend_diff,order_trend)
result_trend=model_trend.fit()
predict_trend=result_trend.predict()+trend.shift(2)
forecast_trend,_,_=result_trend.forecast(11)
forecast_trend=pd.Series(forecast_trend,\
index=pd.DatetimeIndex(start='1960-07-01',end='1961-05-01',freq='MS'))
trend_predict=pd.concat([predict_trend,forecast_trend],axis=0)
for i in range(11,0,-1):
trend_predict.values[-i]+=trend_predict[-i-2]
value_seasonal=[]
for i in range(5):
value_seasonal.append(seasonal.values[i])
forecast_seasonal=pd.Series(value_seasonal,\
index=pd.DatetimeIndex(start='1961-01-01',end='1961-05-01',freq='MS'))
seasonal_predict=pd.concat([seasonal,forecast_seasonal],axis=0)
residual.dropna(inplace=True)
order_residual=sm.tsa.stattools.arma_order_select_ic(residual)['bic_min_order']
model_residual=ARMA(residual,order_residual)
result_residual=model_residual.fit()
predict_residual=result_residual.predict()
forecast_residual,_,_=result_residual.forecast(11)
forecast_residual=pd.Series(forecast_residual,\
index=pd.DatetimeIndex(start='1960-07-01',end='1961-05-01',freq='MS'))
residual_predict=pd.concat([predict_residual,forecast_residual],axis=0)
test_data=trend_predict+seasonal_predict+residual_predict
print(test_data)
data.plot(label='train_data',legend=True)
test_data.plot(label='forecast_data',legend=True)
plt.show()
关于代码中的几点需要做如下说明:
首先:在使用ARMA模型做预测的时候,从最开始的做差分,再到训练模型时选定的AR、MR阶数都导致了最终模型得到了训练数据的缺失。AirPassenger中的数据日期是从1949-01-01到1960-12-01,而在trend部分拟合时,result_trend.predict()输出的数据是从1949-07-01到1960-06-01,所以在trend部分预测时,不止预测了从1961-01-01到1961-05-01这部分的数据,还补充预测了1960-07-01到1960-12-01这部分的数据。
其次,我们投入到ARMA模型的数据是做了差分运算的数据,并且result_trend.predict()和result_trend.forecast()给出的数据也都是差分的数据。所以我们要对得到的数据进行还原。
接着,代码中并没有给出判断序列是否已经是平稳序列的代码,这部分可以参考上述博客。
最后,在上述代码中,确定ARMA的阶数时使用了python中已经写好的函数arma_order_select_ic,在这个函数运行时可能会抛出一些异常,如下:
目前这些异常是因为阶数选择不合适而导致的。在这个实验中,我们选择的是不会引起这些异常阶数对,所以在trend部分拟合是,我们没有选择arma_order_select_ic函数给出的‘bic_min_order’(在实验中为(2,2)),而选择了(3,2)
最终预测结果图如下。从图片显示的结果来看,预测的效果还不错。
最后要说明的时,由于ARMA模型的预测结果收敛速度很快(跟ARMA的阶数有关),所以这里只预测了5个月。预测的月份越多,结果越不准确。