论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

arxiv上的一篇文章,标题为Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
用于可解释多元时间序列预测的时间融合变换器
代码:https://github.com/google-research/google-research/tree/master/tft

摘要

多元预测通常包含复杂的输入组合,包括静态协变量(即时不变)、已知的未来输入和其他仅在过去观察到的外源时间序列,而没有任何关于它们如何与目标相互作用的先验信息。在本文中,我们介绍了时态融合变换器(TFT)——一种新的基于注意的体系结构,它将高性能的多元预测与时态动力学的可解释洞察相结合。为了学习不同尺度下的时间关系,TFT使用递归层进行局部处理,使用可解释的自我注意层进行长期依赖。TFT利用特定的组件来选择相关的特征,并利用一系列的门控层来抑制不必要的特征,从而在广泛的场景中实现高性能。在各种真实数据集上,我们展示了与现有基准相比的显著性能改进,并展示了TFT的三个实际可解释性用例。

输入,静态协变量(s)、过去的观测值(dt-p…dt-1),未来的输入(即将要输入的数据dt)
输出,dt+1,…dt+w,Multi-horizon,我的理解是多源数据,对应于输入中的多种变量
论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第1张图片
比如在销售量预测中
已知的输入:即将来临的节假日,过去的时间序列:顾客的历史足迹,这里静态变量如商店的位置
在这里插入图片描述
yi,t-k:t为过去的预测输出,zi,t-k:t过去每个时刻的观测输入,xi,t-k+t为已知未来输入,比如一周中的哪一天,节假日等,fq为预测模型,待预测值为yi

网络结构:(1)静态协变量编码器编码上下文向量(2)门控机制用于选择相关的输入变量(3)端到到层局部处理已知的观测输入(4)时间自注意解码器学习长期时间依赖

论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第2张图片
鉴于以往的研究将多源输入直接输入到模型,没有进行变量选择,所做出的预测是不可解释的,模型相当于一个黑盒。
作者认为,每个时刻的输入的多源数据,对预测输出的贡献或者说相关性是不同的,因此需要从输入中选择特征进行输入,从而过滤一些噪声.

模型:

论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第3张图片

输入包括静态协变量,如位置信息,过去的时间序列输入,已知的未来输入(dayofweek,holiday)等,这些数据首先经过Variable Selection Network.这个网络由一系列的Gated Residual Network(GRN)组成,GRN的输入包括两个部分,一个是主输入a,另一个是辅输入c(可选输入)
论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第4张图片
整个GRN的结构如上图,下面是其对应的公式:
在这里插入图片描述
在这里插入图片描述
至于GRN为什么可以起到变量选择作用,文章的解释是选通线性单元(GLU)[30]的门控层来提供抑制给定数据集不需要的部分。

Variable Selection Networks
实例变量选择通过变量选择网络应用于静态协变量和时间相关协变量。除了深入了解哪些变量对预测问题最为重要外,变量选择还允许TFT去除任何可能对性能产生负面影响的不必要的噪声输入。大多数真实的时间序列数据集包含较少预测内容的特征,因此变量选择可以通过仅在最显著的区域利用学习能力极大地提高模型性能
论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第5张图片
通过GRN每步选择之后,需要对这些选择过的变量进行weigthed combine,权重
在这里插入图片描述
ci是重静态协变量编码器中获得的静态信息,在,Et是所有时刻的输入向量,展平进行拼接,通过Et和c通过GRN选择后,再通过Softmax计算权重
在这里插入图片描述
最终,权重与每个时刻的输入数据进行相乘再求和,得到选择(加权)后的数据,权重会加强一些输入,弱化一些输入
在这里插入图片描述

如下图,蓝色框为静态增强层,在经过变量选择和LSTM之后,再经过一层GRN进行信息筛选
论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第6张图片
MultiHeadAttention用于捕获长期依赖,用不同的头表示不同的表示子空间。作者做了改进,具体来说,在每个注意力头前加了额外的权重,使得模型更加具有可解释性,这些权重可以显示不同特征的重要性
论文阅读:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting_第7张图片
与静态增强层类似,后面的Positionwise Feed Forward对输出又做了一次选择
在这里插入图片描述3在这里插入图片描述
总的来说,整个模型以GRN作为一个强大的选择器,的重点就是变量选择。对于多元异构的输入,分别处理,逐层筛选过滤非必要的特征,从而去除噪声,保留重要信息。文章这样做的目的是为了增加可解释性。

你可能感兴趣的:(【交通预测论文翻译】,时间序列预测,深度学习)