Python的功能可谓相当强大,在很多行业具有相当的优势,这种优势很大程度上来源于各种第三方库。本文介绍了如何利用时间序列模型ARIMA进行股票走势预测。
环境:windows 64
平台:Jupyter Notebook (Kernel python3)
库:tushare statsmodels pandas numpy seaborn matplotlib
先来看看效果吧
图1 预测结果图
图1中橙色线条为股票行情实际数据,蓝色线条为模型预测的行情走势,预测结果显示股票呈上涨趋势,从长期来看,还是符合实际走势的,证明了ARIMA模型具有一定的可信性。但是在这里还是要提醒大家一句,股市有风险,投资需谨慎。模型只能提供一个参考,并不能完全正确的指导用户投资。
import tushare
data=tushare.get_h_data('600000',start='2005-05-05')
data.to_csv('600000_2005.csv')
导入库,然后调用get_h_data函数获取数据,‘600000’指定股票代码,start指定数据开始的日期,最后将获取的数据使用to_csv函数以csv格式保存到本地。
df=pd.read_csv('600000_2005.csv',index_col=0,parse_dates=[0])
#index_col表示把第一列设为index,parse_dates=[0]表示把第一列按datetime格式解析
使用pandas的read_csv函数进行读取数据,各指标意义见代码段中的注释。
stock_week=df['close'].resample('W-TUE').mean()
#将收盘价作为评判标准,resample指按周统计平均数据(可以指定哪天为基准日,此处是周二为基准)
stock_train=stock_week['2005':'2017'].dropna()
#选取2005-2017的数据
原始数据是股票每天的行情,我们这里将数据进行重采样,按每周的平均行情来进行分析,‘W-TUE’表示按周为单位,指定周二为基准日,即周二到下个周二为一个计算周期。
stock_train.plot(figsize=(12,8))
# plt.legend(bbox_to_anchor=(1.25,0.5))
plt.title('Close Price')
sns.despine() #边框控制,默认没有上方和右方的框
plt.show()
stock_diff=stock_train.diff().dropna() #对数据进行差分,目的使数据平缓,满足平稳性的要求
plt.figure()
plt.plot(stock_diff)
font_loc=''
plt.title('一阶差分',fontproperties=font_set) #注意要设置字体,否则会乱码
plt.show()
from statsmodels.graphics.tsaplots import plot_acf,plot_pacf
acf=plot_acf(stock_diff,lags=20)
plt.title('ACF')
acf.show()
plt.show()
pacf=plot_pacf(stock_diff,lags=20)
plt.title('PACF')
pacf.show()
plt.show()
model=ARIMA(stock_train,order=(1,1,1),freq='W-TUE')#训练模型,order表示(p,d,q)
result=model.fit()
参数order=(1,1,1)表示一阶差分,ACF和PACF的取值均为1,关于差分阶数、ACF、PACF取值详细介绍 点我。
pred=result.predict('20160816','20180112',dynamic=True,typ='levels')#注意预测的起始时间要在训练时间的范围内,结束时间没有要求
需要注意的是,预测数据起始时间必须在训练集内,而终止时间则没有限制
plt.figure(figsize=(6,6))
plt.xticks(rotation=45)
plt.plot(pred)
plt.plot(stock_train)
plt.show()