时间序列的平稳化

目录

1.方法工具

    1.1 推移算子

    1.2 差分运算

2.平稳时间序列

    2.1 概念

    2.2 平稳序列的自协方差函数

    2.3 样本均值和样本自协方差函数

    2.4 白噪声

3.时间序列的平稳性检验

4.时间序列的分解

    4.1 趋势项和季节项的分离

    4.2 差分法

    4.3 序列平滑法

5.白噪声检验


1.方法工具

    1.1 推移算子

        定义:推移算子如下

By_t=y_{t-1}.

        性质

        (1). B^2y_t=y_{t-2}.

                设\Phi(B)=\phi_0+\phi_1B+\phi_2B^2\cdots+\phi_pB^p,则

\Phi(B)y_t=\phi_0y_t+\phi_1y_{t-1}+\phi_2y_{t-2}\cdots+\phi_py_{t-p}.

        (2)推移算子具有可乘性和可交换性,即\Phi(B)\Psi(B)=\Psi(B)\Phi(B).

        (3)推移算子的多项式在系数满足一定的条件下是可逆的.

    1.2 差分运算

        定义:

\bigtriangledown X_t = X_t - X_{t-1} = (1-B)X_t.

\bigtriangledown^2 X_t = X_t - 2X_{t-1} + X_{t-2}= (1-2B+B^2)X_t.

\bigtriangledown^k X_t = \bigtriangledown^{k-1}(\bigtriangledown X_t) = (1-B)^k X_k = \sum_{i=0}^k(-1)^iC_k^iB^iX_{t-i}.


2.平稳时间序列

    2.1 概念

严平稳过程:如果对于所有的t\geqslant 0,任意的正整数k,任意k个时刻(t_1,t_2,\cdots,t_k),有:(X_{t1},X_{t2},\cdots,X_{tk})(X_{t1+t},X_{t2+t},\cdots,X_{tk+t})有相同的联合分布,则称时间序列\left \{ X_t \right \}强平稳 的.

 :强平稳序列要求任意有限个时刻点上的联合分布在时间的平移变换下保持不变,这一条件是非常强的,实际很难达到.所以在实际中,经常用另一种二阶矩意义下的宽平稳过程.

宽平稳过程:如果时间序列\left \{ X_t \right \}_{t=1}^\infty的二阶矩有限,即EX_t^2<\infty ,\forall t \in \mathbb{N}.

        且满足:

        (1)\mu = EX_t,\forall t \in \mathbb{N};

        (2)E[(X_t-\mu)(X_s-\mu)] = E[(X_{t+k}-\mu)(X_{s+k}-\mu)],\forall t,s,k \in \mathbb{N}.

        则称\left \{ X_t \right \}_{t=1}^\infty宽平稳时间序列,或二阶矩平稳序列,简称平稳序列.

:时间序列的平稳性保证序列的期望不变、方差恒定且协方差不随时间改变.

E[X_t]=\mu,Var[X_t]=\sigma^2, Cov(X_t,X_{t-i})=\gamma_i.

特别是,在给定方差有限,并且协方差不随时间改变的假设前提后,就可以对时间序列进行技术处理,如谱分析等.

    2.2 平稳序列的自协方差函数

        定义: 对平稳序列,称

\gamma_{t-s}\triangleq Cov(X_s,X_t)=E[(X_s-\mu)(X_t-\mu)]

\left \{ X_t \right \}自协方差函数.

        自协方差函数满足以下性质:

        (1)对称性:\gamma_k = \gamma_{-k}.

        (2)非负定性:其n阶自协方差矩阵是非负定矩阵.

        (3)有界性:\left | \gamma_k \right | \leqslant \gamma_0,\forall k \in \mathbb{Z}.

        定义:对平稳序列\left \{ X_t \right \},定义

\rho_k \triangleq \frac{\gamma_k}{\gamma_0}.

\left \{ X_t \right \}自相关系数.

    2.3 样本均值和样本自协方差函数

        在实际中,通常我们只能得到时间序列的一条样本轨道,即\left \{ x_t,t=1,2,\cdots,N \right \},则在平稳条件下,样本均值和样本自协方差函数可以通过一条样本轨道的时间平均来实现,即

\hat{\mu} = \frac{1}{N}\sum_{t=1}^Nx_t;

\hat{\gamma_k} = \frac{1}{N}\sum_{t=k}^N(x_t-\hat{\mu})(x_{t-k}-\hat{\mu}), \, \, \, \, 0\leqslant k\leqslant N-1.

其中\left \{ x_1,x_2,\cdots,x_n \right \}是时间序列\left \{ X_1,X_2,\cdots,X_n \right \}的一次观测实现.

    2.4 白噪声

        定义:\left \{ \varepsilon _t \right \}是一平稳序列,如果\forall s,t \in \mathbb{N},有

E\varepsilon _t=0,

Cove(\varepsilon _s,\varepsilon _t)=\left\{\begin{matrix} \sigma^2, \,\,\, t=s,\\ 0, \,\,\, t\neq s. \end{matrix}\right.

则称\left \{ \varepsilon _t \right \}为一个白噪声序列,记作\varepsilon _t \sim WN(0,\sigma^2).

  • 若进一步,对于白噪声\left \{ \varepsilon ^2 \right \} \sim WN(0,\sigma^2)在任意两个不相同的时刻点处相互独立,则称该白噪声序列为独立白噪声序列.  
  • 若进一步,独立白噪声序列\left \{ \varepsilon ^2 \right \}是正态的,即\varepsilon _t \sim N(0,\sigma^2),则称该序列是高斯白噪声.        

:白噪声只需要不相关.之所以称为”白”,是因为其功率谱密度在整个频域内是均匀的.注意不相关与独立是不等价的.


3.时间序列的平稳性检验

判断一个时间序列是否是平稳性有两种检验方法:

  • 一种是根据时序图和自相关图显示的特征做出判断的图检验方法;
  • 另一种是构造检验统计量进行假设检验的方法.

        图检验方法的优点:操作简便,直观.  缺点是:判别结论带有很强的主观色彩,所以最好能用统计检验方法加以辅助判断;
        平稳性的统计检验方法有分段检验法、游程检验法、单位根检验.

:关于时间序列的平稳性检验方法有很多,本文在此就不多做赘述.


4.时间序列的分解

    4.1 趋势项和季节项的分离

        Cramer分解定理

        对任何一个方差齐性的时间序列\left \{ X_t \right \},有以下Cramer分解定理:

X_t=\mu_t+\xi _t,

其中\left \{ \xi _t \right \}为零均值随机平稳序列,反映了\left \{ X_t \right \}受到的随机影响;\left \{ \mu_t \right \}是由多项式决定的确定性趋势成分,反映了\left \{ X_t \right \}受到的确定性影响,可表示为

\mu_t = \sum_{j=0}^d \beta_jt^j,

其中,d<\infty,\,\beta_0,\beta_1,\cdots,\beta_d为常系数.

        时间序列的分解

        长期的观察实践,时间序列分解中的确定性部分主要由趋势项和季节项两部分.因此,时间序列可以分解为:

X_t = T_t+S_t+R_t

其中\left \{ T_t \right \}是趋势项,\left \{ S_t \right \}是季节项,\left \{ R_t \right \}是随机项.时间序列分析的首要任务是估计和抽取趋势项\left \{ \hat{T_t} \right \}和季节项\left \{ \hat{S_t} \right \},以使剩余的随机项\hat{R_t}=X_t-\hat{T_t}-\hat{S_t}为一平稳序列.这项工作被称为时间序列的分解.

        (1)分解趋势项的方法

        (a)回归直线趋势

        若数据有上升趋势,可尝试使用回归直线表示趋势项. 这时,认为样本序列\left \{ x_1,x_2,\cdots,x_n \right \}满足一元线性回归模型

x_t=a_0+a_1t+\varepsilon _t, \,\, t=1,2,\cdots.

\hat{x_t}x_t的估计值,e_t\varepsilon _t的估计值,则

\left\{\begin{matrix} \hat{x_t}=a_0+a_1t,\,\,t=1,2,\cdots,n.\\ e_t = x_t-\hat{x_t}.\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, \end{matrix}\right.

欲使估计值\hat{x_t}与实际值x_t拟合得最好,则应使

Q(a_0,a_1)=\sum_{t=1}^ne_t^2=\sum_{t=1}^n(x_t-a_0-a_1t)^2

达到最小. 利用最小二乘法原理确定回归系数a_0,a_1.

\left\{\begin{matrix} a_0\sum_{t=1}^n1+a_1\sum_{t=1}^nt=\sum_{t=1}^nx_t\\ a_0\sum_{t=1}^nt+a_1\sum_{t=1}^nt^2=\sum_{t=1}^ntx_t \end{matrix}\right.

Z = \begin{bmatrix} 1\,\,1\,\,\cdots\,\,1 \\ 1\,\,2\,\,\cdots\,\,n \end{bmatrix}.

\vec{a}=(a_0,a_1),\vec{x}=(x_1,x_2,\cdots,x_n).

\vec{a}=(ZZ^T)^{-1}Z\vec{x}.

        (b)多项式回归趋势

        多项式拟合,令

x_t=\beta_0+\beta_1t+\beta_2t^2+\cdots+\beta_pt^p+\varepsilon _k,\,\,t=1,2,\cdots,n.

Z = \begin{bmatrix} 1 & 1& \cdots& 1\\ 1& 2& \cdots& n\\ \cdots & \cdots& \cdots& \cdots\\ 1& 2^p& \cdots & n^p \end{bmatrix}

于是\vec{\beta}=(ZZ^T)^{-1}Z\vec{x}.

:当p=1时,即为线性拟合.

        例:下图是笔者利用二次多项式拟合上海前期疫情感染人数(对数处理)的结果,从中可以发现,疫情在前期发展中有着很明显的递增趋势.

时间序列的平稳化_第1张图片

        (2)季节项的分离:

        利用原始数据\left \{x_t \right \}减去趋势项的估计\left \{ T_t \right \}得到的数据基本只含季节项和随机项:

X_t = S_t + R_t.

设数据总长度为N,周期为m,每个周期内的数据点为n个,并设N=n\cdot m. 第i个周期内第j个序列值记为X_{i,j},设时间t对应于第i个周期的第j个序列值,t = im+j.

x_{1,1},x_{1,2},\cdots,x_{1,m}\rightarrow \hat{x_1}

\cdots

x_{k,1},x_{k,2},\cdots,x_{k,m}\rightarrow \hat{x_k}.

        设

\bar{X}=\frac{1}{nm}\sum_{i=1}^n\sum_{j=1}^nX_{i,j},

\bar{X_j}=\frac{1}{n}\sum_{i=1}^nX_{i,j},\,\,j=1,2,\cdots,m.

I_j = \frac{\bar{X_j}}{\bar{X}}.

进一步假设

S_t = \bar{X}\cdot I_j,

对具体的数据,序列周期m的确定需要仔细观察数据图,同时还需考虑序列所刻画指标与季节之间的关系加以辅助分析.

        于是季节项中第t个序列值S_t的估计值可取为

\hat{S_t}=\bar{X}\cdot I_j,

\hat{R_t}=X_t-\hat{S_t}可视为去除季节项之后的时间序列.

    4.2 差分法

        (1)对于蕴含显著线性趋势的样本序列,一阶差分就可以实现趋势平稳;若序列蕴含着曲线趋势,则用二阶或三阶差分提取曲线趋势的影响.

        (2)对于蕴含着固定周期m的序列需进行步长为周期长度的差分运算:

\bigtriangledown _m=1-B^m,

即认为

\eta _t=X_t-X_{t-m}

为平稳序列(需进行平稳性检验). \bigtriangledown _m称为季节差分.

        (3)对于同时蕴含趋势和周期的非平稳序列,则需要同时采用一般差分运算和季节差分运算.例如,一个既有曲线趋势又具有固定周期为4的序列经过分别二阶和四阶季节差分后可变为平稳序列\left \{ \eta _t \right \},即

\eta _t = \bigtriangledown ^2\bigtriangledown _4X_t =(1-B)^2(1-B^4)X_t\\ =X_t-2X_{t-1}+X_{t-2}-X_{t-4}+2X_{t-5}-X_{t-6}.

    4.3 序列平滑法

        滑动平均法的基本思想就是把时间序列\left \{ X_t \right \}看成两部分组成,即

X_t = \bar{X_t}+R_t

其中\left \{ \bar{X_t} \right \}为一个相对平滑的曲线,认为其t时刻的序列值\bar{X_t}k步滑动平均形式

\bar{X_t}=\frac{1}{k}(X_{t-k+1}+X_{t-k+2}+\cdots+X_{t-1}+X_t).

在实际应用中,k=45.

注:对时间序列的确定性信息提取后,需进一步对反映随机性的残差序列做平稳性和白噪声检验

(1)如果检验为平稳白噪声序列,此时可以直接舍去残差项;如果检验为平稳非白噪声序列,则还需要利用传统平稳序列方法,如用AR\MA\ARMA模型等对残差序列分析,进一步提取信息.

(2)如果检验为非平稳序列,则说明残差序列中确定性信息还没有提取充分,需再选择其它确定性信息提取方法,直到残差序列平稳.


5.白噪声检验

        时间序列平稳性检验通过后还需要进行白噪声检验. 如果是白噪声,说明序列是完全随机的,过去的行为对未来的发展没有丝毫影响,故而没有必要再深入分析了. 如果是非白噪声,说明模型拟合得还不够好,还存在有价值的信息待提取.
        在进行时间序列的建模时,也要检验残差是否为白噪声,若残差为白噪声,说明模型拟合得很好,残差部分为没有任何相关性的纯随机数据. 若残差为非白噪声,说明模型哪里出了问题,比如参数没调好,需要继续优化;若无论如何优化模型也无法使得残差为白噪声,则需要换模型,或者对残差进行二次预测.
        白噪声检验也称为纯随机性检验,即检验一个序列的自相关系数\rho_k是否满足

\rho_k=0,\,\,\forall k \neq 0.

        白噪声检验的常用方法有Box-Pierce检验和Ljung-Box检验,前者适用于大样本情况,后者观测序列长度比较小的情况.

你可能感兴趣的:(时间序列,人工智能,矩阵)