统计学——时间序列预测

统计学(第6版) 贾俊平 读书笔记

第13章 时间序列分析和预测

时间序列是同一现象在不同时间上的相继观测值排列而成的序列。本书中用t表示所观察的时间,Y表示观察值,则Yi( i =1, 2, …, n)为时间ti上的观察值。

时间序列可以分为平稳序列和非平稳序列两大类。非平稳序列是包含趋势、季节性或周期性的序列,又可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。
趋势是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动;季节性是时间序列在一年内重复出现的周期性波动;含有季节成分的序列可能含有趋势,也可能不含有趋势。
周期性也称循环波动,是时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式变动。时间序列中除去趋势、周期性和季节性之后的偶然性波动,称为随机性,也称不规则波动
这样,时间序列的成分可以分为4种,即趋势( T )、季节性( S )、周期性( C )、随机性( I )。传统时间序列分析的一项主要内容就是把这些成分从时间序列中分离出来,并将它们之间的关系用一定的数学关系式予以表达,而后分别进行分析。按4种成分对时间序列的影响方式不同,时间序列可分解为多种模型,如加法模型、乘法模型等。其中最常用的是乘法模型,其表现形式为:
在这里插入图片描述

13.2 时间序列的描述性分析

增长率也称增长速度,它是时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。由于对比的基期不同,增长率可以分为环比增长率和定基增长率。环比增长率是报告期观察值与前一时期观察值之比减1,说明现象逐期增长变化的程度;定基增长率是报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。设增长率为G,则环比增长率和定基增长率可表示为:
在这里插入图片描述
平均增长率也称平均增长速度,它是时间序列中逐期环比值的几何平均数减1后的结果,计算公式为:
在这里插入图片描述
式中,G表示平均增长率;n表示环比值的个数。

13.3 时间序列预测的程序

对时间序列进行预测时,通常包含以下几个步骤。

确定时间序列的成分

  1. 确定趋势成分
    可以通过绘制时间序列的线图或利用回归分析拟合一条趋势线,然后对回归系数进行显著性检验。
  2. 确定季节成分
    确定季节成分是否存在,至少需要两年的数据,而且数据需要按季度、月份或天等来记录。确定季节成分也可以绘制时间序列的线图,但这里需要使用年度折叠时间序列图如下:统计学——时间序列预测_第1张图片

选择预测方法

利用时间序列进行预测时,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。一般来说,任何时间序列中都会有不规则成分存在,而本章所介绍的预测方法主要是针对平稳序列以及含有趋势或季节成分的时间序列。下图给出了时间序列的类型和可供选择的预测方法。
统计学——时间序列预测_第2张图片

预测方法的评估

在选择某种特定的方法进行预测时,需要评价该方法的预测效果或准确性。评价方法就是找出预测值与实际值之间的预测误差。预测误差的计算方法有以下几种。

  1. 平均误差
    设时间序列的第i各观测值为Yi,预测值为Fi,则所有预测误差(Yi - Fi)的平均数就是平均误差,用ME表示,其计算公式为:
    在这里插入图片描述
    式中,n为预测值的个数。由于预测误差的数值可能有正有负,求和的结果就会互相抵消,在这种情况下,平均误差可能会低估误差。
  2. 平均绝对误差
    平均绝对误差是将预测误差取绝对值后计算的平均误差,用MAD表示,其计算公式为:
    在这里插入图片描述
  3. 均方误差
    均方误差是通过平方消去误差的正负号后计算的平均误差,用MSE表示,其计算公式为:
    在这里插入图片描述
  4. 平均百分比误差和平均百分比误差
    ME,MAD和MSE的大小受时间序列水平和计量单位的影响,只有在比较不同模型对同一数据的预测时才有意义。而平均百分比误差平均绝对百分比误差则消除了时间序列数据的水平和计量单位的影响,是反映误差大小的相对值。平均绝对误差用MPE表示,其计算公式为:在这里插入图片描述
    平均绝对百分比误差用MAPE表示,其计算公式为:
    在这里插入图片描述
    本章主要采用均方误差MSE来评价预测方法的优劣。

13.4 平稳序列的预测

平稳时间序列通常只含有随机成分,其预测方法主要有简单平均法、移动平均法和指数平滑法,这些方法主要是通过对时间序列进行平滑以消除其随机波动,因而也称为平滑法。平滑法既可用于对时间序列进行短期预测,也可以用于对时间序列进行平滑以描述序列的趋势。

简单平均法

简单平均法是根据已有的t期观察值为Y1, Y2, …, Yt,则t+1期的预测值Ft+1为:
在这里插入图片描述
到了t+1期后,有了t+1的实际值,便可计算出t+1期的预测误差et+1为:
在这里插入图片描述
于是,t+2期的预测值为:
在这里插入图片描述
简单平均法适合对较为平稳的时间序列进行预测,但如果时间序列有趋势或季节成分,该方法的预测则不够准确。简单平均法将远期的数值和近期的数值看做对未来同等重要,从预测的角度看,近期的数值比远期数值对未来有更大的作用。

移动平均法

移动平均法是通过对时间序列逐期递移求得平均数作为预测值的一种预测方法,其方法有简单移动平均法加权移动平均法两种。
简单移动平均是将最近的k期数据加以平均,作为下一期的预测值。设移动间隔为k( 1 < k < t ),则t期的移动平均值为:
统计学——时间序列预测_第3张图片
t+1期的简单移动平均预测值为:
统计学——时间序列预测_第4张图片
移动平均法只使用最近k期的数据,在每次计算移动平均值时,移动的间隔都为k。该方法也适合对较为平稳的时间序列进行预测。应用时,关键是确定合理的移动间隔k。对于同一个时间序列,采用不同的移动间隔,预测的准确性是不同的。可以通过实验的方法,选择一个使均方误差达到最小的移动间隔。

指数平滑法

指数平滑法是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。指数平滑法是加权平均的一种特殊形式,观察时间越远,其权数也跟着呈现指数下降。
一次指数平滑法也称单一指数平滑法,它只有一个平滑系数,而且观察值离预测时间越久远,权数变得越小。一次指数平滑是将一段时期的预测值与观察值的线性组合作为t+1期的预测值,其预测模型为:
统计学——时间序列预测_第5张图片
式中,Yt为t期的时间观察值;Ft为t期的预测值;α为平滑系数(0<α<1)。
从上式可以看出,t+1期的预测值是t期的实际观察值与t期的预测值的加权平均。在开始计算时,还没有第1期的预测F1,故设F1 = Y1
因此2期的预测值为:
在这里插入图片描述
3期的预测值为:
在这里插入图片描述
4期的预测值为:
在这里插入图片描述
依次类推,可见任何预测值Ft+1都是以前所有实际观察值的加权平均。对指数平滑法的预测精度,同样用均方误差来衡量,为此,可以将指数平滑的公式携程下面的形式:
统计学——时间序列预测_第6张图片
可见,Ft+1是t期的预测值Ft加上用α调整的t期的预测误差( Yt - Ft )。使用指数平滑法时,关键的问题是确定一个合适的平滑系数α,一般而言,当时间序列有较大的随机波动时,宜选较大的α,以便能很快跟上近期的变化;当时间序列比较平稳时,宜选较小的α。确定α时,可选择几个α进行预测,然后找出预测误差最小的作为最后的α值。

13.5 趋势型序列的预测

上面介绍的平滑法进行预测时,一般只适合平稳时间序列,当序列存在明显的趋势或季节成分时,平滑法就不再使用。

线性趋势预测

线性趋势是指现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。当现象的发展按线性趋势变化时,可以用下列线性趋势方程来描述:
在这里插入图片描述
其中,等是左侧代表时间序列Yt的预测值;t代表时间标号,b0代表趋势线在Y轴上的截距,是当t=0是预测的数值;b1是趋势线的斜率,表示时间t变动一个单位,观察值的平均变动数量。
趋势方程中的两个待定系数b0和b1通常按回归中的最小二乘法求得。通过趋势方程可以计算出各期的预测值,并通过这些预测值来分析序列的变化趋势及其模式。趋势预测的误差可用线性回归中的估计标准误差来衡量,其计算公式为:
统计学——时间序列预测_第7张图片
式中,m为趋势方程中待确定的未知数的个数,对于直线趋势预测方程,m=2。

非线性趋势预测

序列中的趋势通常可以认为是由于某种固定的因素作用同一方向所形成的。若这些因素随着时间的推移按线性变化,则可以对时间序列拟合趋势直线;若呈现出某种非线性趋势,则需要拟合适当的趋势曲线。下面介绍几种常用的趋势曲线。

  1. 指数曲线
    指数曲线用于描述以几何级数递增或递减的现象,即时间序列的观察值Yt按指数规律变化,或者说时间序列的逐期观察值按一定的增长率增长或衰减。指数曲线的趋势方程为:
    统计学——时间序列预测_第8张图片
    式中,b0,b1为待定系数。
    若b1 > 1,则增长率随着时间t的增加而增加;若b1 < 1,则增长率随着时间t的增加而降低.
    为确定指数曲线中的常数b0和b1,可采用线性化手段将其化为对数直线形式,即两端取对数得:
    在这里插入图片描述
    然后根据最小二乘法原理,按直线形式的常数确定方法,得到求解lgb0和lgb1的标准方程如下:
    统计学——时间序列预测_第9张图片
    求出lgb0和lgb1后,再取其反对数,即得到b0和b1
  2. 多阶曲线
    有些现象比较敷在,不是按照某种固定的形态变化,而是有升有降,在变化过程中可能有几个拐点。这时就需要拟合多项式函数。当有k-1个拐点时,需拟合k阶曲线。k阶曲线函数的一般形式为:在这里插入图片描述
    函数中的系数b0,b1,b2,…,bk仍然可以先将公式线性化,然后按照多元回归分析中的最小二乘法求得。

13.6 复合型序列的分解预测

复合型序列是指含有趋势、季节、周期和随机成分的序列。对这类序列的预测方法通常是将时间序列的各个因素依次分解出来,然后进行预测,采用的分解模型为:Yt = Tt × St × It。对这类序列的预测方法主要有季节性多元回归模型、季节自回归模型和时间序列分解法预测等。本节主要介绍时间序列分解法预测。

确定并分离季节成分

季节性因素分析是通过季节指数来表示各年的季节成分,以此描述各年的季节变动模型。季节指数刻画了序列在一个年度内各月或各季度的典型季节特征。在乘法模型中,季节指数是以其平均数等于100%为条件而构成的,它反映了某一月份或季度的数值占全年平均数值的大小。下面介绍使用移动平均趋势剔除法计算季节指数:

  1. 计算移动平均值(如果是季度数据,采用4项移动平均),并对其结果进行中心化处理,也就是将移动平均的结果再进行一次二项移动平均,即得出中心化移动平均值(CMA);
  2. 计算移动平均的比值,也称为季节比率,即将序列的各观察值除以相应的中心化移动平均值,然后计算出各比值的季度平均值;
  3. 季节指数调整,由于各季节指数的平均数应等于1或100%,若根据第2步计算的季节比率的平均值不等于1,则需将第2步计算的每个季节比率的平均值除以它们的总平均值。

如果现象的发展没有季节变动,则各期的季节指数应等于100%;如果某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于100%。

计算出季节指数后,就可将各实际观察值分别处以相应的季节指数,将季节成分从时间序列中分离出去,用公式表示为:
统计学——时间序列预测_第10张图片
结果即为季节成分分离后的序列,它反映了在没有季节因素影响的情况下时间序列的变化形态。

建立预测模型并进行预测

从剔除季节成分后的时间序列图中发现趋势,用线性或非线性模型来预测各季度的情况。这个预测值是不含季节性因素的,如果要求出含有季节性因素的最终预测值,可以将不含季节性因素的预测值乘以相应季度的季节指数。

你可能感兴趣的:(数据分析)