两类时间序列的预测方法在原理和适用情况上的简要对比

  • 对于两大类常用的预测方法,一是单变量和多变量的时间序列分析方法,另一类是基于机器学习和深度学习的回归方法,本文简要地进行逐个介绍分析。
  1. 单变量时间序列分析方法,如ETS,ARIMA,STL等,更适用于目标值(target)有比较强的规律性的随时间生成的特征。一类特征如周、年季节性,固定或移动假日,这类特征本质上都是移动间距或固定间距的波动。另一类特征是某种形态的趋势,如线性、sigmoid、指数、对数趋势等。当与target相关的特征(或称 features, preditors, indpendents, explanatory variables, etc.)不好获取时,或者features对target的影响很小时,即target自身随时间表现出的特征的规律性,比target因features表现出的规律性明显很多时,用单变量的时序方法性价比最高;比各种一元回归方法还高,因为一元回归除了需要target外,还需要处理一维的feature,并且feature在训练集和预测集都要能获取。

  2. 多变量的时间序列分析方法,如Prophet,VARMAX,DynamicFactor等,相对于单变量的时序方法,除自身时变规律外,target还受会到不太多的几个重要feature的影响,会使自身序列的特征在某些情况下产生不与时间相关、而与feature相关的变化。当处于这种情况,并且feature在训练集和预测集上能有效获取时,用多变量的时序方法大概率会比单变量的时序方法更准确;当然计算资源的消耗也会因此增加,可以根据实际情况来决定是否考虑性价比。

  3. 回归类的方法都是用feature去表达target,一般对处理多维的feature更有效,表达能力会更强;但对target序列自身随时间产生的那些特征的学习和表达,一般没有时序模型强,这是因为时序模型会将target也当做一个自变量构建到目标函数中:y(t+n) = f(Y(<=t),X(<=t+n)),而回归模型只把feature当做自变量去构建函数:y(<=t+n) = f(X(<=t+n));其中 t 指第 t 期,n 指向未来预测 n 期。所以当target序列没有或者少有随时间变化的那些特征,而其规律是体现在对应的那些features中时,用回归类的模型就更合适。

  4. 因为深度学习是机器学习的一个子集,所以本文将神经网络(主要指深度学习)也划到回归类模型中。从原理上看,根据神经元的构造不同及层与层之间的连接方式不同,有些RNN类的神经网络会更接近时序模型,即target序列会经过变换后作为自变量用于构造目标函数;有些CNN类的会更接近回归模型,即target序列只当做因变量去构造目标函数。但因为神经网络特别灵活,有些CNN类也将target序列一起用来构造自变量,如CNN-QR,并且支持feature在预测集上无法获取的情况;只是在预测期无法获取的feature的维度越多,预测准确度就越受到能获取的features的影响,以及不能获取的features的在训练集和预测期上特征变化程度大小的影响等。

  • 三个很好的预测方法参考资料:
    最全面最新鲜的:
    2022-IJF-Forecasting-theory and practice
    原理讲解更多的:
    ①:Demand prediction in retail
    ②:Forecasting: Principles and Practice (3rd ed)

你可能感兴趣的:(回归分析,时间序列分析,#,学术技术资源,深度学习,回归,时间序列,预测)