时间序列处理方法

1、ARIMA模型
ARIMA模型,是统计学中的常见对时间序列处理的模型,全称为自回归移动平均模型。
ARIMA模型主要有p,d,q三个参数。

p--代表预测模型中采用的时序数据本身的滞后数(lags) ,也叫做AR/Auto-Regressive项
d--代表时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项。
q--代表预测模型中采用的预测误差的滞后数(lags),也叫做MA/Moving Average项

2.应用步骤

1.数据读取

把索引转换成时间索引;

# -*- coding:utf-8 -*-
import numpy as np
import pandas as pd
from datetime import datetime
import matplotlib.pylab as plt
# 读取数据,pd.read_csv默认生成DataFrame对象,需将其转换成Series对象
df = pd.read_csv('AirPassengers.csv', encoding='utf-8', index_col='date')
df.index = pd.to_datetime(df.index)  # 将字符串索引转换成时间索引
ts = df['x']  # 生成pd.Series对象
# 查看数据格式
ts.head()
ts.head().index

2.绘制图,观察序列是否为平稳序列,若否,则进行d阶差分,转化成平稳数列。
3.对平稳序列获取,自相关系数ACF和偏相关系数PACF;从而得到最佳的阶层p和阶数q;
4.获得ARIMA模型,进行预测。

————
参考:

  1. https://www.kesci.com/home/project/5a349f31da263370ab5f89c4;