本文主要对各种时间序列模型及其特征做了一个归纳总结,以便查询了解。
符号说明:
变量: x , y x,y x,y
变量集: X , Y X,Y X,Y
变量 x x x在 t t t时刻的值: x t x_t xt
参数: α , β \alpha, \beta α,β
自回归,顾名思义,就是用自己预测自己,即用同一变量 x x x之前的信息 { x 1 , x 2 , … , x t − 1 } \{x_1,x_2,\dots,x_{t-1}\} {x1,x2,…,xt−1}来预测 x x x当前时刻 x x x的信息 x t x_t xt,并假设他们是线性关系。
X t = ∑ i = 1 p φ X t − i + ε t + c = ∑ i = 1 p φ X t − i + c X_t =\sum_{i=1}^{p}\varphi X_{t-i}+\varepsilon_{t}+c\\ =\sum_{i=1}^{p}\varphi X_{t-i}+c Xt=i=1∑pφXt−i+εt+c=i=1∑pφXt−i+c
其中, ε t \varepsilon_{t} εt是均值为0,方差为 σ 2 \sigma^2 σ2的随机误差值,假设 σ \sigma σ对于任何的 t t t都不变; c c c是常数项。
优点:所需的数据或信息不多,只用自身来预测自身;
缺点:必须具有自相关性;只能适用于预测与自身前期相关的现象。
移动平均模型也被称为移动平均过程,是一种常见的对单变量时间序列(univariate time series)建模的方法。它指出输出变量线性依赖于当前值和不同随机项的过去值。
q阶移动平均模型通常简记为MA(q):
X t = ε t + θ 1 ε t − 1 + ⋯ + θ q ε t − q + μ = ε t + ∑ j = 1 q θ j ε t − j + μ X_{t} = \varepsilon_{t}+\theta_{1}\varepsilon_{t-1}+\dots+\theta_{q}\varepsilon_{t-q}+\mu\\ =\varepsilon_{t}+\sum_{j=1}^{q}\theta_{j}\varepsilon_{t-j}+\mu Xt=εt+θ1εt−1+⋯+θqεt−q+μ=εt+j=1∑qθjεt−j+μ
其中, θ 1 , … , θ q \theta_{1},\dots,\theta_{q} θ1,…,θq是序列的参数, ε 1 , … , ε t − q \varepsilon_{1},\dots,\varepsilon_{t-q} ε1,…,εt−q是白噪声、随机误差项, μ \mu μ是序列的均值。
其也可以表示成:
X t = ( 1 + θ 1 B + ⋯ + θ q B q ) ε t + μ X_{t}=(1+\theta_{1}B+\dots+\theta_{q}B^{q})\varepsilon_{t}+\mu Xt=(1+θ1B+⋯+θqBq)εt+μ
自回归滑动平均模型可以看成是由自回归模型和移动平均模型“混合”构成的弱平稳随机过程。
当系统是一系列未观察到的冲击(MA部分)以及它自己行为的函数时,使用ARMA是合适的。例如,股票价格可能会受到基本信息的冲击,以及由于市场参与者而表现出的技术趋势和均值回归效应。
ARMA(p,q)表示 p p p阶AR和 q q q阶MA:
X t = ∑ i = 1 p φ X t − i + ε t + ∑ j = 1 q θ j ε t − j + c X_t = \sum_{i=1}^{p}\varphi X_{t-i}+\varepsilon_{t}+\sum_{j=1}^{q}\theta_{j}\varepsilon_{t-j}+c Xt=i=1∑pφXt−i+εt+j=1∑qθjεt−j+c
在统计、经济学和时间序列分析中,ARIMA模型是ARMA模型的扩展,二者都是适用于时序数据更好地理解数据和预测序列中未来的点。ARIMA可以适用于数据非稳态的情况。
ARIMA(p,d,q)中,AR是"自回归", p p p为自回归项数;MA为"滑动平均", q q q为滑动平均项数, d d d为使之成为平稳序列所做的差分次数(阶数)。其定义为:
( 1 − ∑ i = 1 p ϕ i L i ) ( 1 − L ) d X t = ( 1 + ∑ i = 1 q θ i L i ) ε t \left (1-\sum_{i=1}^{p}\phi_{i}L^{i} \right)(1-L)^{d}X_{t}=\left(1+\sum_{i=1}^{q}\theta_{i}L^{i} \right)\varepsilon_{t} (1−i=1∑pϕiLi)(1−L)dXt=(1+i=1∑qθiLi)εt
其中, L L L是时间滞后算子(lag operator), d ∈ Z , d > 0 d \in \mathcal{Z},d>0 d∈Z,d>0。
矢量自回归模型是一个用于捕捉多元时间序列间的线性独立性的一种随机过程模型。与AR模型的区别就是其允许多于一个变量。
矢量自回归模型描述了 k k k个变量之间在相同的时间段内跟他们过去时刻的值的线性函数的演变。
一个 p p p阶的VAR模型简写为VAR ( p ) (p) (p),其定义为:
x t = A 1 x t − 1 + A 2 x t − 2 + ⋯ + A p x t − p + e t + c x_t=A_1x_{t-1}+A_{2}x_{t-2}+\dots+A_{p}x_{t-p}+e_{t}+c xt=A1xt−1+A2xt−2+⋯+Apxt−p+et+c
其中,A_{i}表示变量不同时间之间的影响强度,是 k × k k\times k k×k的矩阵; e t e_{t} et表示误差项,是 k × 1 k\times 1 k×1的矢量。 c c c表示常数,是 k × 1 k\times 1 k×1的矢量。同时,误差项满足以下条件:
1. E ( e t ) = 0 E(e_{t})=0 E(et)=0:每个误差项的均值都为0;
2. E ( e t e t ′ ) = σ 2 E(e_{t}e_{t}')=\sigma^2 E(etet′)=σ2:同个时期的误差项协方差矩阵为 σ 2 \sigma^2 σ2;
3. E ( e t e t − k ′ ) = 0 E(e_{t}e_{t-k}')=0 E(etet−k′)=0:每个误差项之间互相没有相关性。
一个 p p p阶的VAR模型也称为含有滞后影响长度为 p p p的VAR模型。
一个含有滞后影响长度为 p p p的SVAR模型可以定义为:
B 0 x t = B 1 x t − 1 + B 2 x t − 2 + ⋯ + B p x t − p + e t + c 0 B_{0}x_t=B_1x_{t-1}+B_{2}x_{t-2}+\dots+B_{p}x_{t-p}+e_{t}+c_{0} B0xt=B1xt−1+B2xt−2+⋯+Bpxt−p+et+c0
AR和MA都是平稳的(stationary)。
参考资料: