《FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting》是2022年发表于ICML的一篇论文。该文章以先前的Autoformer模型为整体框架,做了新的创新,建议看这篇文章之前先学习一下Autoformer,理清了前一篇文章的框架和创新点,看这一篇文章就会轻松些。
文章代码链接:
文章链接
代码链接
下图为作者论文中的模型图,继承了Autoformer的模型框架,作者对“时序分解”进一步创新提出频率增强分解结构,并对“Encoder/Decoder”的Transformer中融入傅里叶增强模块和小波增强模块。
在Autoformer中,分解模块使用的是固定的窗口大小,为了克服固定大小在具有复杂周期和趋势分量的现实情况下的不足,作者设计了一个混合型分解模块,其主要由若干个不同大小的窗口组成,提取到多个不同的分量特征,同时作者还对他们设置了权值,旨在区分不同分量特征对模型的贡献,最终以加权求和的方式获得最终趋势数据。这部分通俗易懂,主要进行了不同尺度的滤波操作获得多种结果,并对他们加权计算最终结果。
在该部分,作者提出将Transformer和傅里叶分析相结合,取代以往将Transformer应用于时间特征提取,改为使用Transformer对傅里叶变换后的频域数据进行特征提取。然而时域数据转化为频域数据带来的是大量的频率分量,是否针对所有数据进行特征提取或者如何选择这些分量将是一个问题。针对这个问题,作者进行了分析和验证。
使用所有频率分量 虽然数据一点不会丢失,但考虑到傅里叶变换的局限性,过多的频率特征带来的将是冗余的信息资源、庞大的机器和时间开销以及过拟合的风险,因此不适用于对所有数据进行特征提取。
使用部分高频分量 高频分量代表时间序列中变化的突变型特征,确实具有一定的特殊性,然而噪声的存在否定了特殊性存在的合理性,过度地对高频分量进行特征提取,或许模型最终学习到更多噪声的内容,而难以关注时间序列本身。
使用部分低频分量 低频分量较为平缓,而时间序列中趋势的变化往往与重要事件的发生有关,缺少了高频分量对趋势的影响,时间序列将不具个性,预测的意义也大大降低。
随机选择分量 作者通过论证得到随机选取分量更有效,大大降低了复杂度。
该部分内容将被使用在时域转频域后频域分量的选择。
该部分主要对时序数据在频域上的特征进行提取,具体步骤如下:
1.输入数据通过多层感知机调整长度、增加非线性;
2.通过快速傅里叶变换,由时域数据转换为频域数据;
3.对频域数据随机选择分量 ,减少信息冗余、降本增效;
4.随机初始化矩阵R,并与随机选择的频率分量相乘;
5.为了便于后续进行傅里叶逆变换,需要将数据以0补足维度;
6.通过傅里叶逆变换,由频域数据转换为时域数据。
该部分替换了常规注意力模块,不同的是对q k v进行了频域下的特征提取,具体步骤如下:
1.由Encoder经过多层感知机获得v和k,由Decoder经过多层感知机获得q;
2.q k v 在快速傅里叶变换下由时域数据转换为频域数据,对他们随机选择分量 ;
3.接下来的步骤和传统注意力机制一样:k q相乘后经激活函数再与v相乘;
4.为了便于后续进行傅里叶逆变换,需要将数据以0补足维度;
5.通过傅里叶逆变换,由频域数据转换为时域数据。
在完成了傅里叶增强结构后,作者针对傅里叶变换的局限性,又提出了一种小波增强结构。在学习这部分之前,需要清楚傅里叶变换和小波变换的差别和联系。于是我也去临时抱佛脚了一波,根据我的理解,大致是傅里叶变换的条件过于理想,在现实的许多场景下,信号往往是非平稳的,而对非平稳过程,傅里叶变换有着明显的局限性(可参考该链接回答)。
针对该局限性,前人提出多种方法,其中小波变换尤其突出。而本文作者应该也是考虑到了这样的局限性,因此尝试用小波变换代替傅里叶变换,最终探索出了小波增强结构。
小波变换方法主要针对多个局部的时序数据进行变换,因此在该部分,作者将每一段局部数据进行分解重建,主要模块还是沿袭的上文傅里叶增强结构中提到的模块,这和小波变换和傅里叶变换的异同点有关。
该部分和FEB-f不同,作者使用固定的小波基对矩阵进行分解,分别使用三个FEB-f模块处理分解后的高频数据、低频数据和剩余数据,如左图所示。随后采用重建模块融合多组数据进行数据重建,如右图所示。
该部分的内容和FEB-w异曲同工,作者使用相同的分解矩阵对k q v 分解为三对,每一对q k v再通过FEA-f进行特征提取,如上图所示。而数据重建部分,则和FEB-w中的重建方法一样。
作者在六种基准数据集上进行了测试,结果表明,所提的两种方法(傅里叶和小波)具有一定的优势,但在所有场景下,两种方法之间很难有绝对优势的存在。对于不同种类的基准数据,可能因为他们自身的平稳性等情况的不同,从而在傅里叶和小波模块的两种情况下存在着一定的差异。值得注意的是,两种方法在六种数据集中的优势恰恰互补,在一定程度上也说明作者所提模型的有效性。
作者使用控制变量的方法对所提模块的效果进行测试。其中,V1:代表仅使用FEB代替自注意力;V2: 仅使用FEA代替交叉注意力;V3: 使用FEA替代自注意力及交叉注意力。
(详细实验结果见附录)
实验结果表明,所提方法确实能够提高模型的预测性能。
针对前文提到的时域转为频域后对变量的随机选择方法,作者除了完成理论探究,还在实验上进行了对比。结果表明,随机策略获得更好的性能,同时表现出一定的模式饱和效应,这进一步论证了随机选取的正确性。
为了验证模型输入和输出数据的分布情况,作者对多种模型进行对比,使用的是分布检测常用方法KS检测(Kolmogrov-Smirnov)。实验结果表明,Autoformer和FEDformer输入和输出数据的分布相似性更高。经分析,可能得益于季节趋势分解模块。
Autoformer可以认为是将时序序列分解为多个时序子序列进行特征提取,而FEDformer则是从频域的角度进行提取,两个在具有相似模型框架的同时又有着较大的不同。通过多个实验,后者展现出优异的特征提取能力,进而在长时序中具有优异的性能。
作者在Autoformer的基础上进行深入创新,融入了傅里叶变换的同时,进一步探索了融入小波变换的可能性,更加证明了合理使用传统领域的发现,将其与深度学习相结合,往往会有着不错的效果。通过学习发现,小波变换部分的模块与傅里叶模块有着直接相关,因此小波模型的运行不管是空间还是时间都将是一大开销。