LSTNet Paper Review

一、概述

Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks (LSTNet)

这篇是发表在SIGIR2018的一篇文章(2017发在了Arxiv上),主要内容就是一个用于做时序预测的复合网络结构。
时序预测没什么好说的,也是一个相对久远的任务了。
经典一元模型有AR、MA、ARCH、ARMA(ARIMA)等等,也有多元时序回归预测VARMA,以及非线性时序回归预测。
LSTM提出后,基于其可存贮序列数据的历史信息的特性,也有很多人做RNN(多为LSTM和GRU)网络模型在时序预测方面的研究。
但是RNN的模型做时序预测,过于依赖预测值前一天的值。

二、关于本文

文章提出的模型,主要就是先用CNN来提取短期多元(窗口内)信息,然后将CNN提取的处理后序列信息扔进RNN(这里用的是GRU)和Skip-RNN,最后将 CNN + RNN + (SKIP |ATT) 输出的结果与AR的结果做一个拼接Merge,作为最后的输出。

三、LSTNet

CNN Component

正常的CNN 序列处理,就和做CNN文本处理一样,Conv1D模型,多个卷积核做卷积操作,最后作为RNN层的训练数据。
激活函数RELU。


CNN Component
RNN Component

正常的一层GRU , 激活函数RELU。


GRU
Skip - RNN Component

p是设置跳跃的间隔距离


Recurrent-skip Component
Recurrent-skip Component
Attention Component
Attention

H^R,t 是隐层(上一层RNN)的matrix,h是Hmatrix中的column
即H = [h t-q, ... , h t-1]
αt就是得到的注意力矩阵,将Ht * αt 得到注意力加权过的新的隐层序列。


ht

最后一个window 的隐层向量使用简单的线性投影得到。

AR Component
AR
LSTNet Architecture
目标函数

在大多数预测任务中,都把最小均方误差做为默认的损失函数。而在LSTNet中,使用绝对误差作为目标函数。


优化策略

SGD & Adam

四、评测任务

Baseline



4.5 Main Results
image.png

Reference:
Original Paper (LSTNet)
Open Source Code By Author

你可能感兴趣的:(LSTNet Paper Review)