时序数据预测:Holt-Winters

本文尝试应用三次指数平滑法(Holt-Winters)对同时含有趋势和季节规律的月度时序数据进行预测,样本时序数据时间跨度2017年1月至今。对时序数据进行异常值判别并修正处理后,应用Holt-Winters建模预测。比较懒(主要是学识浅薄),暂不做详尽的理论说明与代码解释,仅做个人积累记录使用,如有侵权或不合规请及时联系处理~


目  录

1、样本数据获取

2、异常值判别与修正

3、模型构建与评估


1、样本数据获取

本例样本数据为单变量月度时序数据,读取该变量时序数据后将“年月”字段设置为索引。

import pandas as pd

# 加载基础数据
data_dl = pd.read_excel("C:/Users/admin/Desktop/data.xlsx",sheet_name='时序数据')
data_dl['年月']=data_dl['年月'].astype(object)
data_dl['年月'] = pd.to_datetime(data_dl['年月'],format='%Y%m')
data_dl =data_dl.set_index('年月')
ts_data=data_dl['目标变量']

2、异常值判别与修正

将各变量时序数据进行周期性分解,提取变量residual残差部分,过滤Nan值后进行z-score标准化处理,根据3σ原则(三西格玛准则)判别异常值,本例取2.5σ;

对异常值进行修正,修正值取异常月份的其他年份同期平均值。

from statsmodels.tsa.seasonal import seasonal_decompose
import numpy as np

#2.5倍西格玛获取异常值
decomposition = seasonal_decompose(ts_data, period=12, two_sided=False)
residual = pd.DataFrame(decomposition.resid)
residual.dropna(inplace=True)
residual['resid_zscore'] = (residual['resid'] -residual['resid'].mean()) / residual['resid'].std()
z_abnormal = residual[abs(residual['resid_zscore']) > 2.5]

#异常值修正
ts_data_re=ts_data.copy()
ts_data_re.rename('修正',inplace=True)
ts_data_re.loc[z_abnormal.index]=np.nan
for indx in z_abnormal.index:
    ts_data_re.loc[indx]=ts_data_re[(ts_data_re.index.month == indx.month)&(ts_data_re.index.year != indx.year)].mean()

z_abnor=pd.concat([ts_data, ts_data_re], axis=1)
z_abnor['修正'].loc[(z_abnor.index).difference(z_abnormal.index)]=np.nan

print(z_abnor.loc[z_abnormal.index])

结果预览。异常年月的实际值与修正值。

时序数据预测:Holt-Winters_第1张图片

3、模型构建与评估

构建三次指数平滑模型,在训练集上完成模型训练,在测试集上验证模型效果,计算预测准确率(可分别基于实际值与修正值计算准确率)。

from statsmodels.tsa.holtwinters import ExponentialSmoothing

#划分训练集与测试集
test_len=3
train = ts_data_re[:-test_len]
test = ts_data_re[-test_len:]

result=pd.concat([ts_data[-test_len:], test], axis=1)

#模型训练与评估
model = ExponentialSmoothing(np.asarray(train), seasonal_periods=12, trend='add',seasonal='mul', ).fit()
result['pred'] = model.forecast(test_len)
result['accr'] = round(100 - abs(result['pred'] - result['汇总']) * 100 / result['汇总'],2)

print(result)

结果预览。本例基于实际值计算准确率。

时序数据预测:Holt-Winters_第2张图片

 

你可能感兴趣的:(python时序数据预测)