Are Transformers Effective for Time Series Forecasting?(机翻部分段落

最近,基于Transformer的时间序列预测(TSF)任务解决方案激增,特别是具有挑战性的长期TSF问题。Transformer架构依靠自注意机制有效提取长序列中成对元素之间的语义相关性,这种相关性具有置换不变和一定的“反序”特性。然而,在时间序列建模中,我们要提取连续点的有序集合之间的时间关系。因此,基于Transformer的技术是否是“长期”时间序列预测的正确解决方案是一个值得研究的有趣问题,尽管这些研究显示性能有所提高。在这项工作中,我们质疑基于Transformer的TSF解决方案的有效性。在他们的实验中,比较**(非Transformer)基线主要是自回归预测解**,由于不可避免的误差累积效应,通常长期预测能力较差。相比之下,我们使用了一个简单得令人尴尬的体系结构,名为DLinear,它可以直接进行多步(DMS)预测,以便进行比较。DLinear将时间序列分解为趋势序列和余数序列(应该是未来趋势序列和历史趋势序列),并使用两个单层线性网络对这两个序列进行建模,用于预测任务。令人惊讶的是,在大多数情况下,它的性能大大超过了现有的基于transformer的复杂模型。因此,我们得出结论,现有工作中基于Transformer的TSF解决方案相对较高的长期预测精度与Transformer体系结构的时间关系提取能力关系不大。这主要是由于它们采用了非自回归DMS预测策略。我们希望本研究也提倡在未来的时间序列分析任务(如异常检测)中重新审视基于Transformer的解决方案的有效性。代码可以在https://github.com/cure-lab/DLinear。

摘要

时间序列在当今数据驱动的世界中无处不在。鉴于历史数据,时间序列预测(TSF)是一项长期存在的任务,具有广泛的应用,包括但不限于交通流估计、能源管理和金融投资。在过去的几十年里,TSF解决方案经历了从传统的统计方法(如ARIMA[1])和机器学习技术(如GBRT[10])到基于深度学习的解决方案,如循环神经网络(RNNs)[15]和时间卷积网络(tns)[3]的发展。与此同时,我们正在处理越来越复杂和多样化的时间序列数据,从单变量时间序列到多元时间序列以及今天的大时间序列在许多应用中,需要先进的深度神经网络来提取时间关系。Transformer[25]可以说是最成功的序列建模架构,在各种人工智能应用中表现出无与伦比的性能,如自然语言处理[6]、语音识别[7]和运动分析[19]。最近,[26]中调查的基于transformer的时间序列分析解决方案也出现了激增。TSF任务的一些著名模型包括:LogTrans [16] (NeurIPS 2019), Informer [28] (AAAI 2021年最佳论文),Autoformer [27] (NeurIPS 2021), Pyraformer [18] (ICLR 2022 Oral),和最近的FEDformer [29] (ICML 2022)。上述大部分工作都集中在研究较少的长期时间序列预测(LTSF)问题上,表明与传统方法相比,预测精度有相当大的提高。然而,在他们的实验中**,所有的比较(非Transformer)基线都进行了自回归预测**[1,21,2,23],这是已知的存在显著的误差累积效应。更重要的是,Transformer架构的主要工作动力来自于它的多头自注意机制,它具有在长序列中(如文本中的单词或图像中的2D块)提取成对元素之间语义相关性的显著能力,并且这个过程是排列不变的,即不分顺序。然而,对于时间序列分析,我们主要感兴趣的是在一组连续的点之间建立时间动力学模型,其中顺序本身往往起着最关键的作用。基于以上分析,我们提出了一个有趣的问题:《Transformer》对长期时间序列预测真的有效吗?
是因为Transformer类的模型使用了非自回归模型的原因??)
为了回答这个问题,我们提出了一个非常简单的网络DLinear作为比较基线。DLinear将时间序列分解为趋势序列和余数序列,利用
两个单层线性网络对这两个序列进行直接多步(DMS)预测建模
。我们对九个广泛使用的基准进行了广泛的实验,包括几个现实生活中的应用:交通、能源、经济、天气和疾病预测。我们的结果表明,在大多数情况下,DLinear在很大程度上优于现有的基于变压器的复杂模型。特别是对于没有明显周期性的汇率数据集,最先进的方法[29]的预测误差比DLinear的预测误差大2倍以上。此外,我们发现,与现有的工作相比,他们中的大多数未能从长序列中提取时间关系,即预测误差并没有随着回望窗口大小的增加而减少(有时甚至增加)。最后,我们还对现有的基于Transformer的TSF解决方案进行了各种消融研究,以研究各种设计元素对其中的影响。由此,我们得出结论,Transformer对时间序列的时间建模能力被夸大了,至少在时间序列预测问题上是如此。与此同时,虽然DLinear取得了比现有工作更好的预测精度,但它只是为未来研究具有挑战性的长期TSF问题提供了一个简单的基线。基于我们的研究结果,我们也提倡在未来重新审视基于Transformer的解决方案对于其他时间序列分析任务(例如,异常检测)的有效性。本文的其余部分组织如下。第2节对时间序列预测进行了初步介绍。然后,我们在第3节讨论现有的基于Transformer的解决方案。接下来,第4节详细介绍了基线DLinear架构。实验结果将在第5节中展示。最后,第6节对本文进行总结。

TSF问题的制定

对于包含C个变量的时间序列,给定历史数据X = [Xt,, X)t1,其中L为回望窗口大小,X为第i个变量在第t个时间步长的值。时间序列预测任务是预测未来t个时间步的值& = [t,t1]。当T > 1时,我们可以学习一个单步预测器,并迭代应用它获得多步预测,称为迭代多步(IMS)预测[22]。或者,我们可以一次直接优化多步预测目标,称为直接多步(DMS)预测[4]。
与DMS预测结果相比,由于自回归估计过程,IMS预测结果方差较小,但不可避免地存在误差累积效应。因此,当有一个高精度的单步预测器,且T相对较小时,IMS预测是可取的。而DMS预测在难以获得无偏单步预测模型或T较大的情况下,预测结果相对更准确。

2.2非基于transformer的TSF方案

统计方法(如自回归综合移动平均(ARIMA)[1],指数平滑[11],结构模型[13])用于时间序列预测是一个长期存在的问题,具有广泛的应用范围。一般来说,统计方法中使用的参数模型需要大量的领域专业知识来构建。为了减轻这种负担,许多机器学习技术,如梯度提升回归树(GBRT)[10,9]得到了普及,它以数据驱动的方式学习时间序列的时间动态。然而,这些方法仍然需要手工的特征工程和模型设计。由于深度神经网络(deep neural networks, DNNs)对丰富的数据具有强大的表示学习能力,文献中提出了各种基于深度学习的TSF解决方案,在很多情况下实现了比传统技术更好的预测精度。除了transformer之外,另外两种流行的DNN架构也被用于时间序列预测:
1)基于递归神经网络(RNNs)的方法(如[20])在内部记忆状态中紧凑地总结过去的信息,并递归地更新自己以进行预测。
2)基于卷积神经网络(CNNs)的方法(例如,[3]),其中卷积滤波器用于捕获局部时间特征。
基于rnn的TSF方法属于IMS预测技术。根据解码器是否以自回归方式实现,基于cnn的TSF方法有IMS或DMS预测技术[3,17]

2.2 基于Transformer的LTSF解决方案

基于变压器的模型[25]在自然语言处理和计算机视觉领域的许多长期存在的AI任务中取得了无与伦比的性能,这得益于多头自我注意机制的有效性和效率。正如[26]中调查的那样,这也引发了对基于Transformer的时间序列建模技术的大量研究兴趣。特别是大量的研究工作致力于TSF任务(如[16,18,27 -29])。考虑到使用Transformer模型获取长期依赖关系的能力,其中大多数关注较少探索的长期预测问题(T > 1)。将Transformer模型应用于LTSF问题时,存在一定的局限性,包括原始自注意方案的二次元时间/内存复杂度和自回归译码器设计造成的误差积累。[28]解决了这些问题,提出了一种新的Transformer架构,降低了复杂性,并提供了DMS预测策略。后来,更多的Transformer变体在其模型中引入了各种时间序列特性,以提高性能或效率[18,27,29]。我们总结了现有基于transformer的TSF解决方案的设计元素如下(参见图1)。
时间序列分解:对于数据预处理,零均值归一化在TSF中很常见。此外,Autoformer[27]首先在每个神经块后面应用了季节趋势分解,这是时间序列分析的标准方法,可以使原始数据更具有可预测性[5,12]。具体来说,他们在输入序列上使用移动平均核来提取时间序列的趋势周期分量。将原始序列与趋势分量的差值作为季节分量。FEDformer[29]在Autoformer分解方案的基础上,进一步提出混合专家策略,混合不同核大小的移动平均核提取的趋势分量。
输入嵌入策略:Transformer架构中的自我注意层不能保存时间序列的位置信息。但是,局部位置信息,即排序时间序列很重要。此外,全局时间信息(如分层时间戳(周、月、年)和不可知论时间戳(节假日和事件))也是提供信息的[28]。为了增强时间序列输入的时间上下文,SOTA变压器基于方法的一个实用设计是注入几个嵌入,如固定位置编码、通道投影嵌入和可学习的时间嵌入到输入序列。此外,还引入了时间卷积层[16]或可学习时间戳[27]的时间嵌入。
**自我注意机制:**变形金刚依靠自我注意机制来提取成对元素之间的语义依赖关系。为了减少普通Transformer的O (L2)时间和内存复杂度,使用了两种策略来提高效率。一方面,LogTrans[16]和Pyraformer[18]在自我注意方案中明确引入了稀疏性偏差。
具体来说,LogTrans[16]使用Logsparse掩罩将计算复杂度降低到O(LlogL),而Pyraformer[18]采用金字塔式注意,以O(L)时间和内存复杂度来捕获分层多尺度的时间依赖关系。另一方面,Informer[28]和FEDformer[29]在自我注意矩阵中使用了低秩属性。Informer[28]提出ProbSparse自注意机制和自注意提取操作,将复杂度降低到O (LlogL); FEDformer[29]设计傅里叶增强块和小波增强块,随机选择,获得O (L)复杂度。最后,Autoformer[27]设计了一种串行自相关机制来取代原来的自注意层。
解码器:原始的Transformer解码器以自回归的方式输出序列,导致推断速度缓慢和错误累积效应,特别是对于长期预测。
[28]设计了一种用于DMS预测的生成式解码器。其他Transformer变体也采用类似的DMS策略。例如,Pyraformer[18]使用连接时空轴的全连接层作为解码器。自成体[27]将趋势周期分量的精细化分解特征和季节分量的叠加自相关机制总结出来,得到最终的预测结果。FEDformer[29]还使用了一种带有频率注意块的分解方案来解码最终结果。

Transformer模型的前提是成对元素之间的语义相关性,而自我注意机制本身是置换不变的。考虑到时间序列中的原始数值数据(如股票价格或电力价值),它们之间几乎没有任何点的语义相关性。在时间序列建模中,我们主要关注连续点集合之间的时间关系,这些元素的顺序而不是配对关系起着最关键的作用。虽然采用位置编码和使用标记嵌入子序列有利于保留一些排序信息,但置换不变自我注意机制的性质不可避免地会导致时间信息的丢失。鉴于上述观察结果,我们有兴趣重新审视基于变压器的LTSF解决方案的有效性。

4 LTSF的基线简单得令人尴尬

在现有的基于变压器的LTSF解决方案(T > 1)的实验中,所有的比较(非变压器)基线都是IMS预测技术,已知其存在显著的误差累积效应。我们假设在这些工作中显示的性能改进很大程度上是由于它们中使用的DMS策略。为了验证这一假设,我们提出了一个非常简单的时间序列分解线性模型,名为DLinear,作为比较的基线。主要有两个观察结果启发了我们的设计。
首先,一个单层线性网络可以被认为是最简单的网络来聚合历史信息以预测未来。其次,从以往的研究[26,27,29]的实验来看,分解可以很大程度上提高基于transformer的方法在时间序列预测中的性能,这种方法是模型不可知的,可以促进其他模型,如线性模型的预测。因此,DLinear是分解方案和线性网络的组合。它首先将一个时间序列数据分解为趋势分量Xt E RLXC和余数数据X, = X - Xt。然后,将两个一层线性网络应用于两个级数。
Are Transformers Effective for Time Series Forecasting?(机翻部分段落_第1张图片
DLinear的总体结构如图2 (a)所示,整个过程为:X = H, + H,其中H, = W,X, E RTXC, Ht = W,Xt E RTXC为分解后的趋势和余数特征。W、E RTXL和Wt E RTXL是两个线性层,如图2(b)所示。注意,如果数据集的变量具有不同的特征,即不同的季节性和趋势,在不同变量之间共享权重的DLinear可能表现不佳。因此,我们在DLinear中有两种设计。我们将每个变量共享同一个线性层的DLinear网络命名为DLinear- s,将每个变量单独拥有一个线性层的DLinear- i网络命名为DLinear- i。我们默认使用DLinear-S。虽然DLinear很简单,但它有一些引人注目的特点:O(1)最大信号遍历路径长度:路径越短,依赖关系越好被捕获[18],使DLinear能够捕获短期和长期的时间关系。.效率高:由于每个分支只有一个线性层,因此它比现有的变压器消耗更少的内存和更少的参数,推理速度更快(见表8)。•可解释性:训练后,我们可以将季节性和趋势分支的权重可视化,从而对[8]的预测值有一些见解。易于使用:DLinear可以很容易地获得,而无需调优模型超参数。

实验结果

对于现有的基于Transformer的TSF解决方案:Autoformer[27]、Informer[28]和普通Transformer[25]的实现都来自于Autoformer工作[27];FEDformer[29]和Pyraformer[18]的实现来自各自的代码存储库。我们也采用它们的默认超参数来训练模型。对于DLinear来说,为了获得一个平滑的、清晰的权值,我们将DLinear中线性层的权值初始化为1/L,而不是随机初始化。也就是说,我们在训练开始时,对回顾窗口中的每个预测时间步使用相同的权值。更多的DLinear超参数,请参考我们的代码。DLinear的分解方案与Autoformerm相同,其中移动平均核大小为25。

这些结果表明,现有的基于变压器的TSF解决方案不能有效地提取时间关系,而DLinear是长期预测任务的强大基线。最近的FEDformer取得了较高的预测精度,尤其是ETT基准,如表3所示。这可能是因为federformer不太依赖于变形金刚中的自我注意机制。相反,它采用了经典的时间序列分析技术,如傅里叶变换,在时间特征提取中发挥重要作用。值得注意的是,虽然FEDformer在某些情况下优于DLinear,但它是在T = 96的设置下实现的。我们研究了不同的回望窗口大小的影响(见第5.4节),我们的结果表明,随着T的增加,DLinear继续改善,最终在很大程度上优于federformer。另一个有趣的观察结果是,尽管简单的重复- c方法在预测长期季节性数据(例如,电力和交通)时显示出更差的结果,但它在exchange rate(超过30%)和Weather(超过10%)数据集上出乎意料地优于所有基于transformer的方法。这主要是由于基于变压器的解决方案中对趋势的错误预测造成的,导致精度显著下降(见图3(b))。定性的结果。如图3所示,我们用基于变压器的解决方案和DLinear绘制了三个选定的时间序列数据集的预测结果:电力(序列1951,变量36),汇率(序列676,变量3)和ETTh2(序列1241,变量2),这些数据有不同的时间模式。当输入长度为96步,输出视距为336步时,变压器[28,27,29]无法捕捉到未来电量和ETTh2数据的规模和偏差。此外,他们很难根据汇率等非周期性数据预测出一个合适的趋势。这些现象进一步表明现有的变压器不适合TSF任务。

你可能感兴趣的:(深度学习,transformer,人工智能)