Are Transformers Effective for Time Series Forecasting?论文阅读

题目:Transformers 对时间序列预测有效吗?

发表时间:2022.05.26   

平台:arXiv

来源:香港中文大学

        最近,基于Transformer 的时间序列预测(TSF)任务解决方案激增,特别是具有挑战性的长期TSF问题。Transformer 架构依靠 self-attention 有效提取长序列中成对元素之间的语义关联,这种关联具有一定的排列不变性和“反排序”特性(permutation-invariant and “anti-ordering”)。然而,在时间序列建模中,我们要提取连续点的有序集合之间的时间关系。因此,基于Transformer 的技术是否是“长期”时间序列预测的正确解决方案是一个值得研究的有趣问题,尽管这些研究显示性能有所提高。在这项工作中,我们质疑基于 Transformer  的TSF解决方案的有效性。在他们的实验中,比较(非Transformer )基线主要是自回归预测解决方案,由于不可避免的误差累积效应,通常长期预测能力较差。相比之下,我们使用了一个简单得令人尴尬的架构,名为 DLinear,它可以直接进行多步(direct multi-step DMS)预测,以便进行比较。DLinear 将时间序列分解为趋势序列和剩余序列,并使用两个单层线性网络对这两个序列进行建模,用于预测任务令人惊讶的是,在大多数情况下,它的性能大大超过了现有的基于transformer的复杂模型。因此,我们得出结论,现有工作中基于 Transformer  的TSF解决方案相对较高的长期预测精度与 Transformer  架构的时间关系提取能力关系不大。这主要是由于它们采用了非自回归DMS预测策略。我们希望本研究也提倡在未来的时间序列分析任务(如异常检测)中重新审视基于 Transformer  的解决方案的有效性。代码是可用的在 https://github.com/cure-lab/DLinear。


评价:搞了半天复杂的Transformer ,最后发现这玩意没啥用,主要还是 直接预测多步(DMS) 起的作用?


1. 引言

        时间序列在当今数据驱动的世界中无处不在。鉴于历史数据,时间序列预测(TSF)是一项长期存在的任务,具有广泛的应用,包括但不限于交通流估计、能源管理和金融投资。
        在过去的几十年里,TSF 解决方案经历了从传统的统计方法(如ARIMA[1])和机器学习技术(如GBRT[10])到基于深度学习的解决方案,如循环神经网络(RNNs)[15]和时间卷积网络(TCNs)[3]的发展。与此同时,我们正在处理越来越复杂和多样化的时间序列数据,从单变量时间序列到多变量时间序列,以及今天许多应用中的大时间序列,需要先进的深度神经网络进行时间关系提取。 

       Transformer[25]可以说是最成功的序列建模架构,在各种人工智能应用中表现出无与伦比的性能,如自然语言处理[6]、语音识别[7]和运动分析[19]。最近,[26]中调查的基于Transformer的时间序列分析解决方案也出现了激增。TSF任务的一些著名模型包括: LogTrans [16] (NeurIPS 2019), Informer [28] (AAAI 2021年最佳论文),Autoformer [27] (NeurIPS 2021), Pyraformer [18] (ICLR 2022 Oral),以及最近的FEDformer [29] (ICML 2022)。

        上述大部分工作都集中在研究较少的长期时间序列预测(LTSF)问题上,表明与传统方法相比,预测精度有相当大的提高。然而,在他们的实验中,所有的比较(非Transformer)基线都进行了自回归预测[1,21,2,23],这是已知的存在显著的误差累积效应。更重要的是, Transformer 架构的主要工作能力来自于多头self-attention机制, 在一个长序列中具有非凡的能力提取元素之间的语义相关性(例如,文本中的words或图像中的 2D patches), 这个过程是permutation-invariant,即, 不管顺序如何然而,对于时间序列分析,我们主要感兴趣的是在一组连续的点之间建立时间动力学模型,其中顺序本身往往起着最关键的作用。基于以上分析,我们提出了一个有趣的问题: Transformers 对长期时间序列预测真的有效吗?

        为了回答这个问题,我们提出了一个非常简单的网络DLinear作为比较基线。DLinear将时间序列分解为趋势序列和剩余序列,利用两个单层线性网络对这两个序列进行直接多步(DMS)预测建模。我们对九个广泛使用的基准进行了广泛的实验,包括几个现实生活中的应用:交通、能源、经济、天气和疾病预测。

        我们的结果表明,在大多数情况下,DLinear在很大程度上优于现有的基于 Transformer 的复杂模型。特别是对于没有明显周期性的汇率数据集,最先进的方法[29]的预测误差比DLinear的预测误差大2倍以上。此外,我们发现,与现有的工作声明的相反,他们中的大多数未能从长序列中提取时间关系,即预测误差并没有随着回望( look-back)窗口大小的增加而减少(有时甚至增加)。最后,我们还对现有的基于Transformer 的TSF解决方案进行了各种消融研究,以研究各种设计元素对其中的影响。

        由此,我们得出结论,Transformer 对时间序列的时间建模能力被夸大了,至少在时间序列预测问题上是如此。与此同时,虽然 DLinear 取得了比现有工作更好的预测精度,但它只是为未来研究具有挑战性的长期TSF问题提供一个简单的基线。基于我们的研究结果,我们也提倡在未来重新审视基于Transformer 的解决方案对于其他时间序列分析任务(例如,异常检测)的有效性。

        本文的其余部分组织如下。第2节对时间序列预测进行了初步介绍。然后,我们在第3节讨论现有的基于Transformer 的解决方案。接下来,第4节详细介绍了基线DLinear架构。实验结果将在第5节中展示。最后,第6节对本文进行总结。


评价:继续对摘要的补充说明,也没啥东西,强调时间序列建模中的时间的重要性,而基于Transformer 的模型对时间的建模并不是很好,使用的历史数据增加(增加 look-back 窗口大小)并没有减小预测误差。


略。。。。

后面也没啥东西

Are Transformers Effective for Time Series Forecasting?论文阅读_第1张图片

这里的时间序列分解和Autoformer 一模一样,后面就是两个线性层最后加一起。就效果好了。

得出的结论是:Transformer 没啥卵用,主要是靠 直接预测多步。

未来可以做的工作:

  1. 单线性层太简单不能处理复杂的时间序列
  2. 其他时间序列任务,如异常检测的Transformer 有没有用需要研究。

你可能感兴趣的:(论文阅读,时间序列预测以及异常检测,深度学习,时间序列预测)