机器学习经典算法----时间序列模型ARIMA


文章目录

        • 模型平稳性与差分法
          • 平稳性
          • 差分法
        • ARIMA模型 [^1][^2][^3]
          • AR模型
          • MA模型
          • ARMA模型
        • 相关函数评估法
          • 自相关函数ACF(Autocorrelation Function)
          • 偏自相关函数PACF(Partial Autocorrelation function)
        • 建立ARIMA模型
        • 参数(模型)选择


模型平稳性与差分法
平稳性
  • 平稳性要求样本具有一定的“周期”规律,以保证样本在未来一段时间内仍能顺着现有的状态“惯性”地延续下去。只有对于有规律可循的样本,我们才能通过手段对其预测。
  • 平稳性要求时间序列上的样本的均值方差不能发生明显变化。
  • 平稳性分类
    • 严平稳:严平稳表示的分布不随时间的改变而改变。例如:白噪声(正态分布),无论时间怎么取,分布的期望都是0,方差都为1。但实际问题中,往往不会遇到此情况。
    • 弱平稳:期望与相关系数(依赖性)不变或变动范围较小。实际问题中,此类较多。想要预测未来的情况,那么一定需要过去的信息是呈现规律的,换言之,未来某时刻t的值Xt要依赖于它的过去信息。
差分法
  • 意义:在ARIMA模型中,第一步即要求对数据做差分运算,可见差分运算的重要性。但什么是差分运算呢?简单来说,在时间序列上,用后一个时间单元的值减去当前时间的值,这个操作就是一次差分运算,对当前这组数据进行全部差分运算后,可以使得波动较大的原始数据的趋势变得更加平缓,使得均值和方差平稳。例如:假如我有一组关于从1月到3月的数据【66,99,129】,那么完成差分计算后的结果是:【30,30】,此时,相比于原始数据,一阶差分结果的方差和均值更加稳定。有利于ARIMA模型的精确求解。
  • 一阶差分效果:机器学习经典算法----时间序列模型ARIMA_第1张图片
ARIMA模型 123
AR模型
  • AR模型,AutoRegression模型称为自回归模型,此模型与MA模型都为ARIMA模型的组成部分,也是计算ARIMA模型首先需要计算的模型。
  • AR模型的核心是回归,通过当前已有的数据,进行回归计算得出一组关于变量的系数,变量为历史值,系数则刻画了当前值与历史值之间的关系。这样,通过回归计算得出的一组系数,能很好的刻画当前值与历史值之间的关系,从而达到用变量自身的历史时间数据对自身进行预测。
  • AR模型要求:
    • 必须具有平稳性
    • 使用自身数据进行预测
    • 必须具有相关性,若自相关系数Epsilon小于0.5则不宜采用
    • 只适用于与自身前期相关的现象
  • p阶4自回归过程的公式定义5
    • 公式: 在这里插入图片描述
    • p阶的意义:对于当前值Yt来说,对其有决定作用的项包含其前1阶,前2阶,前3阶,…,前p阶。
    • AR模型中,我们指定p,对变量进行回归计算得出自相关系数γi
MA模型
  • MA模型,MovingAverage模型称为移动平均模型,相比于自回归模型关注自相关系数,MA模型则关注于自回归模型中的误差项,其目的在于有效地消除预测中的随机波动,亦即消除AR模型中的Epsilon(t)。
  • 特点:
    • 关注于自回归模型中的误差项的累积
    • MA模型能有效消除预测中的随机波动
    • q阶自回归过程的公式定义:在这里插入图片描述
    • MA模型,我们指定q,对误差项使用回归计算,从而求解出误差项系数θi
ARMA模型
  • ARMA模型,亦称为自回归移动平均模型,其为自回归与移动平均模型的结合
  • 公式:机器学习经典算法----时间序列模型ARIMA_第2张图片
  • 在ARMA模型中,我们指定p和q的值,使用回归方法计算出自相关系数γi与误差项的系数θi
相关函数评估法
自相关函数ACF(Autocorrelation Function)
  • 意义:用于求解指定阶数K时,当前值与K阶变量序列之间的相关性。(较为官方的解释:有序的随机变量序列与其自身相比较自相关函数反映 了同一序列在不同时序的取值之间的相关性)
  • 公式:
    • 在这里插入图片描述
    • 注意:ACF取值范围为[-1,1]
  • 效果图:
    • 机器学习经典算法----时间序列模型ARIMA_第3张图片
    • 解释:蓝色虚线划分的中间区域表示95%的置信区间,即95%的数据都落在该区域。
偏自相关函数PACF(Partial Autocorrelation function)
  • ACF模型的缺点:对于一个平稳的AR§模型,求出滞后k自相关系数p(k)时,实际上得到的并不是X(t)与X(t-k)之间单纯的相关关系,X(t)同时还会受到中间k-1个随机变量X(t-1),…,X(t-k+1)的影响,而这k-1个随机变量又和X(t-k)具有相关关系,所以自相关系数p(k)里实际掺杂了X(t)与X(t-k)之间的k-1个变量对X(t)与X(t-k)之间相关性的影响。
  • PACF的作用:其剔除了X(t)与X(t-k)之间的k-1个变量对X(t)与X(t-k)的关系的干扰,从而得到这两个变量之间的严格相关性系数。
建立ARIMA模型
  • 建模流程:
    • 将序列平稳:差分法确定d值
    • p和q阶数确定:ACF和PACF
    • ARIMA(p,d,q)
  • p,q值选择方法:
    • 对当前时间序列数据分别计算ACF和PACF并做图,然后根据下表指标进行选择:
    • 机器学习经典算法----时间序列模型ARIMA_第4张图片
    • 例如:
      机器学习经典算法----时间序列模型ARIMA_第5张图片
参数(模型)选择
  • 参数选择解释:对于ARIMA模型来说,我们虽然可以通过以上ACF和PACF方法来确定p,q值,但是我们却只能得到一个大概的值,并且这里会涉及到模型复杂度模型对数据集描述能力之间平衡性的问题,当训练数据足够多时,可以不断提高模型精度,但同时会带来一个机器学习中非常普遍的问题:过拟合。因此在这里,挑选出来的参数,不一定是ARIMA模型的最优参数,参数选择步骤则是用于解决参数挑选问题。
  • AIC准则(赤池信息准则,Akaike Information Criterion),AIC是衡量统计模型你和优良性的一种标准,它建立在熵的概念上,提供了权衡估计模型复杂度和你和数据优良性的标准。通常定义为:
    在这里插入图片描述
    • 其中k是模型参数个数,L是似然函数。从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型。
  • BIC准则(贝叶斯信息准则,Bayesian Information Criterion)," 贝叶斯信息准则与AIC相似,用于模型选择。训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高"。通常定义为:
    在这里插入图片描述
    • 其中,k为模型参数个数,n为样本数量,L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。
  • AIC和BIC的比较:“AIC和BIC的公式中前半部分是一样的,后半部分是惩罚项,当n≥8n≥8时,kln(n)≥2kkln(n)≥2k,所以,BIC相比AIC在大数据量时对模型参数惩罚得更多,导致BIC更倾向于选择参数少的简单模型。”。




脚注:
  1. 模型简介:ARIMA模型由AR模型(AutoRegression自回归模型)、MA模型组合而成,而AR与MA中间的I则代表ARIMA模型运算前进行几阶差分运算。 ↩︎

  2. 参数说明:进行ARIMA运算需要三个参数(p,d,q)分别代表p阶自回归项数,差分阶数,移动平均项数。 ↩︎

  3. 模型原理:将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值(差分运算阶数)以及随机误差项的现值和滞后值进行回归所建立的模型。 ↩︎

  4. p阶:与差分运算阶数含义相同,若相邻两时间点,则前者为后者1阶值。 ↩︎

  5. Yt是当前值,μ是常数项,p是阶数,γi是自相关系数,Epsilon(t)是误差项。 ↩︎

你可能感兴趣的:(数学,ARIMA模型,机器学习,回归,预测)