卷积神经网络的条件时间序列预测

摘要
我们提出了一种基于最新深度卷积WaveNet架构的条件时间序列预测方法。拟议的网络包含堆叠的卷积堆栈，使它们可以在预测时访问广泛的历史记录，ReLU激活函数和条件是通过将多个卷积滤波器并行应用于单独的时间序列来执行的，从而可以快速处理数据和利用多元时间序列之间的相关结构。我们使用S＆P500，波动率指数，CBOE利率和几种汇率来无条件和有条件地对卷积网络的性能进行测试和分析，并将其与众所周知的自回归的性能进行广泛比较模型和长期记忆网络。我们表明，卷积网络非常适合回归类型的问题，并且能够有效地学习序列中以及序列之间的依赖关系，而无需较长的历史时间序列，它是一种省时且易于实现的替代递归类型的方法网络，并且往往优于线性模型和递归模型。关键字：卷积神经网络，金融时间序列，预测，深度学习，多元时间序列
简介
由于明显的原因，使用过去的观察来预测财务时间序列已成为人们非常感兴趣的话题。众所周知，尽管数据中存在时间关系，但由于序列中存在非线性趋势，粗尾和噪声，它们很难准确分析和预测[6]。在开发用于预测财务数据的模型时，希望它们既能够学习数据中的非线性依存关系，又具有很高的抗噪性。传统的自回归模型（例如VAR和ARMA [9]）无法捕获非线性模式。前馈神经网络是一种学习数据中依存关系的流行方法，因为前馈神经网络无需使用预先指定特定的模型形式，参见[28]或[4]。Hybrid还提出了使用神经网络和计量经济学模型的混合方法，传统前馈神经网络的一个缺点是需要大量的数据样本才能获得稳定的预测结果。
本文的主要重点是多元时间序列预测，特别是金融时间序列。特别是，我们预测以其他相关序列为条件的时间序列。众所周知，金融时间序列既具有高噪声成分，又具有有限的持续时间–即使可用，由于金融环境的变化，使用长期股价历史记录也可能很困难。同时，存在许多不同但密切相关的财务时间序列。在这里，我们旨在利用条件的概念来开发多变量预测，以减少短时序列中的噪声。实际上，我们将多个财务时间序列用作神经网络的输入，从而根据其自身的历史以及多个其他时间序列的历史来对时间序列的预测进行调整。在多个股票系列上训练模型可以使网络利用这些系列之间的相关结构，以便网络可以在较短的数据序列中了解市场动态。如图所示[30]对于分类，使用多个条件时间序列作为输入可以通过学习序列之间的长期时间依赖性来提高模型的鲁棒性和预测质量。
卷积神经网络（CNN），参见[18]，是一种生物启发型的深度神经网络（DNN），由于其在分类问题（例如图像识别[16]或时间序列分类[ 26]）。 CNN由一系列卷积层组成，其输出仅连接到输入中的局部区域。这是通过在输入上滑动滤波器或权重矩阵并在每个点计算两者之间的点积（即输入和滤波器之间的卷积）来实现的。这种结构允许模型学习能够识别输入数据中特定模式的过滤器。 CNN用于时间序列预测的最新进展包括[20]，其中作者提出了基于未抽取小波变换的时间序列建模的未抽取卷积网络，[3]作者建议使用自回归型加权系统来预测金融时间序列，其中权重通过通过CNN进行学习而被允许与数据相关。在一般的文献中，关于卷积架构的金融时间序列预测的文献仍然很少，因为这些类型的网络更常用于分类问题。直观地，将CNN应用于时间序列预测的想法是学习表示代表该序列中某些重复模式的过滤器，并使用它们来预测未来值。由于CNN的分层结构，它们可以在嘈杂序列上很好地工作，通过在每个后续层中丢弃噪声并仅提取有意义的模式，从而与使用小波变换时间序列的神经网络（即，高频和低频分量）作为输入，请参见例如[1]，[17]。
当前，递归神经网络（RNN），尤其是长期短期记忆单元（LSTM）[12]，[5]是时间序列预测的最新技术，另请参见[14]和特别是[7]的财务预测结果。这些网络的效率可以通过循环连接来解释，循环连接允许网络访问以前时间序列值的整个历史记录。另一种选择是采用多层卷积的卷积神经网络[27]。通过跳过输入中的某些元素来应用滤波器的扩张卷积允许网络的接收场呈指数增长，从而允许网络类似于RNN，访问范围广泛的历史记录。 CNN相对于递归型网络的优势在于，由于网络的卷积结构，可训练权重的数量很少，从而可以更有效地进行训练和预测。
受[25]的影响，作者将PixelCNN与用于图像生成的网络PixelRNN [24]的性能进行了比较。在本文中，我们旨在研究卷积神经网络与自回归算法和自回归算法相比的性能。预测嘈杂的财务时间序列的递归模型。我们使用的CNN是受最早为音频预测而开发的[23]的卷积WaveNet模型启发的网络，我们对其结构进行了简化和优化以进行多元时间序列预测。我们的网络专注于学习多元，嘈杂的时间序列内以及之间的长期关系。与[23]相似，它使用膨胀卷积，但是这些卷积与输入时间序列以及我们所依据的时间序列中的参数化跳过连接[11]一起应用，从而学习了长和短术语相互依存关系的有效方式。此外，原始WaveNet模型的门控激活功能被整流线性单元（ReLU）取代，简化了模型并减少了训练时间。
本文包括几个主要的贡献。首先，我们介绍了受WaveNet模型启发的CNN，其结构经过简化和优化以用于时间序列预测，即使用ReLU激活以及通过参数化跳过连接进行新颖，更优化的调节方式。其次，据我们所知，知道CNN在分类问题上的出色表现，我们的工作是（据我们所知）第一个表明它们可以成功地用于预测有限长度的金融时间序列。通过对WaveNet模型进行广泛的分析并将性能与LSTM，当前最新的预测技术以及计量经济学中流行的自回归模型进行比较，我们证明WaveNet模型是一种高效的方法且易于实施以替代递归型网络，并且往往优于线性模型和递归模型。最后，我们使用人工时间序列以及S＆P500，VIX，CBOE利率和五种汇率的示例表明，WaveNet模型中有效的条件调节方式使人们能够提取时间序列之间的时间关系，从而改善预测，而同时限制了长期历史价格序列的需求并降低了噪音，因为它允许人们利用相关时间序列之间的相关性。总体而言，我们表明卷积网络可以更简单，更容易地训练循环网络的替代方法，同时在非线性，嘈杂的预测任务上至少达到相同或更高的准确性。
模型
在这一节中，我们首先回顾一下神经网络和卷积神经网络。然后，我们介绍了将用于时间序列预测的特定卷积网络结构。
前馈神经网络
略
Convolutions（卷积）
两个一维信号f和g的离散卷积被定义为f∗g

根据卷积的定义，可以将输入中不存在的样本定义为0，通常称为补零，或者仅在样本同时存在于两个信号中的点处计算乘积。请注意，卷积是可交换的，即(f∗g) = (g∗f)如果信号是有限的，那么无限的卷积可能会被截断。换句话说，假设f = [f(0)，…， f(N - 1)]和g = [g(0)，…， g(M−1)]，两者的卷积由下面公式给出

卷积输出的大小取决于处理未定义样本的方式。如果将一定数量的未定义样本设置为0，这称为零填充。如果我们不应用0填充，则输出的大小为N - M + 1(因为i = 0..N-M)当在输入信号f的两边填充p个0时，输出的大小为N - M + 2p+ 1。因此，零填充允许一个人控制卷积的输出大小，调整它或减少，或相同，或增加相对于输入大小。因此，通过将信号g在输入f上沿j移动并计算两者的加权和，可以计算出在点i处的卷积。
Convolutional neural networks
卷积神经网络是在局部连通的思想下发展起来的。每个节点只连接到输入中的一个局部区域，参见图2.1。这种连接的空间范围被称为节点的接受域。局部连通是通过卷积代替神经网络的加权和来实现的。在卷积神经网络的每一层，输入与权矩阵(也称为过滤器)进行卷积，以创建一个特征映射。换句话说，权重矩阵在输入上滑动并计算输入和权重矩阵之间的点积。注意，与常规的神经网络不同，输出特征图中的所有值共享相同的权值。这意味着输出中的所有节点都检测到完全相同的模式。CNNs的局部连通性和共享权值方面减少了可学习参数的总数，从而提高了训练的效率。因此，卷积神经网络背后的直觉是，在每一层中学习一个权重矩阵，该矩阵将能够从输入中提取必要的、平移不变的特征。
卷积层的输入通常是三维的:高度、重量和通道数。在第一层，这个输入与一组应用于所有输入通道的m1三维过滤器进行卷积(换句话说，过滤器映射的第三维总是等于输入中的通道数)，以创建特征输出映射。现在考虑一个没有填充0的一维输入:
x =
然后通过卷积每个过滤器: for h=1,....,
得到第一层的输出特征图，…， m1，输入:
= ()(i)=
where
注意，由于在本例中输入通道的数量为1，因此权重矩阵也只有一个通道。与前馈神经网络相似，输出通过非线性h(·)得到= h()。
在每个后续层l = 2，...，L中，输入特征图∈，其中是输出滤波器图的大小从先前的 = 的卷积中，与一组filters ∈，h = 1，...，进行卷积以创建特征图∈：=
然后将其输出通过非线性传递，得出。滤波器尺寸参数k因此控制每个输出节点的接收场。如果没有零填充，则对于l = 1，..，L，每层卷积输出的宽度。由于特征图中的所有元素共享相同的权重，因此可以将特征以时不变的方式进行检测，同时减少了可训练参数的数量。经过L个卷积层后，网络的输出将为矩阵，其大小取决于滤波器大小和最终层中使用的滤波器数量。根据我们希望模型学习的内容，对模型中的权重进行训练，以最小化网络的输出与我们感兴趣的真实输出之间的误差。

图2.1

图2.1：具有三层（L）的前馈神经网络与具有两层且过滤器大小为1×2的卷积神经网络，因此每个节点的感受野都包含来自上一层的两个输入神经元，并且权重是共享的跨层，用相同的颜色（R）表示。
Structure
考虑一维时间序列。给定一个具有参数值θ的模型，预测变量的任务是根据序列的历史记录输出下一个值。这可以通过最大化似然函数来完成

其中d是扩张因子，M是通道数。换句话说，在膨胀卷积中，将滤波器应用于输入向量中的第d个输入向量中，从而使模型可以有效地学习相距甚远的数据点之间的连接。我们使用类似于[27]和[23]的架构，其中L层膨胀的卷积l = 1，...，L，并且膨胀增加了两倍：。选择滤波器w的大小为1×k：＝ 1×2。图2.2给出了一个三层膨胀卷积网络的示例。使用膨胀卷积代替常规卷积可以使输出y受到输入中更多节点的影响。网络的输入由时间序列给出。在随后的每个层中，我们应用膨胀的卷积，然后进行非线性处理，得到输出特征图fl，l = 1，...，L。然后，这L层膨胀的卷积层之后是1×1卷积将通道数减少回一，因此模型输出一维向量。由于我们对预测时间序列的后续值感兴趣，因此我们将对模型进行训练，以使该输出为预测的时间序列。

图2.2

神经元的感受野被定义为其输入中修改该神经元输出值的一组元素。现在，我们将模型的接收场r定义为第一层输入中的神经元数量（即时间序列），它可以修改最后一层中的输出（即预测时间序列）。然后，这取决于层数L和滤波器大小k，由下式给出
r:=
在图2.2中，接收场由r = 8给出。一个输出值受八个输入神经元的影响
如前所述，有时在边界周围用零填充输入很方便。然后，此零填充的大小将控制输出的大小。在我们的案例中，为了不违反对x的适应性约束，我们要确保预测时网络的接收场仅包含。为此，我们使用因果卷积，其中因果一词表示卷积输出不应依赖于将来的输入。在时间序列中，这等效于用接受域大小的零向量填充输入，因此输入由下式给出:

L层Wavenet的输出是:

因此，在训练时，通过将输入与每一层中的内核l = 1，...，L卷积，然后进行1×1卷积，可以计算出的预测。在测试时，通过在训练中输入给出（t + 1）≥r的单步提前预测prediction 模型。通过在下一个时间步将每个预测反馈回网络，依次进行n步提前预测。使用进行两步提前的样本外预测ˆ。
因此，网络的思想是使用卷积神经网络的功能作为自回归预测模型。在简单的p阶自回归模型中，的预测值由给出，其中，i = 1，... ，p是可学习的权重，是白噪声。使用上面定义的WaveNet模型，每个t∈{0，...，N}的预测条件期望为

其中函数βi，i = 1，...，r与数据相关，并通过卷积网络进行了优化。我们指出，即使权重取决于基础数据，由于网络的卷积结构，权重也会在输出的过滤器映射图之间共享，从而导致权重矩阵平移不变。
目标函数：训练网络权重（滤波器wl h）以使平均绝对误差（MAE）最小化；为了避免过度拟合，即权重过大，我们使用带有正则项γ的L2正则化，因此成本函数为

其中ˆ x(t +1)表示使用x(0)，...，x(t)的x(t +1)预测。最小化E(w)会导致权重的选择，从而在拟合训练数据与减小训练数据之间进行权衡。权重过大通常会导致网络过度拟合训练数据，因此L2正则化（通过强制权重不要太大）使模型可以更好地针对看不见的数据进行泛化。
备注1（与贝叶斯框架有关）:在贝叶斯框架中，使此成本函数最小化等效于最大化Laplace分布似然函数下的后验分布，该函数的中心为由模型^输出的值，具有固定比例参数β= 1/2

并在模型参数上具有高斯先验。
通过运行通过网络的前向通行获得输出，最佳权重是来自后验分布的点估计。由于MAE是依赖于比例尺的精度度量，因此应该对输入数据进行归一化处理，以使误差在不同的时间序列中具有可比性。
Weight optimization
训练模型的目的是要找到使（1）中的成本函数最小的权重。一种标准的权重优化基于梯度下降，其中，根据误差函数的梯度来增量更新权重，

对于τ= 1，...，T，其中T是训练迭代的次数，η是学习率。因此，每次迭代τ都由一个正向运行和一个向后遍历组成，前者在其中计算预测矢量ˆ x和相应的误差E(w(τ))，后者由梯度矢量∇E(w(τ))计算。根据（2）计算关于每个权重的权重，并更新权重。梯度矢量是通过反向传播计算的，相当于从最终层中计算出的误差函数迭代应用链规则，直到获得所需层权重的梯度为止：

在这里我们对感兴趣权重发生的所有节点求和。选择训练迭代的次数T以实现误差的收敛。在这里，我们使用亚当梯度下降法[15]，对权重进行了稍微修改。该方法通过保持过去梯度和平方梯度的指数衰减平均值，并使用这些参数来更新参数，从而为每个参数计算自适应学习率。自适应学习率允许梯度下降更准确地找到最小值。
Activation functions
在每一层中，我们使用非线性或激活函数来转换卷积的输出，从而允许模型学习数据的非线性表示。在我们的模型中，非线性采用定义为ReLU（x）：= max（x，0）的整流线性单位（ReLU）的形式，因此层l的输出为

image.png

其中b∈R表示将输入转换为非线性的偏差，* d照常表示具有膨胀d的卷积，而表示具有滤波器，h=1,...的卷积的输出。层l中的M1。与[23]中用于音频生成的门控激活函数不同，在这里我们建议使用ReLU，因为当将其应用于非平稳，嘈杂的时间序列的预测时，它是最有效的。同时使用ReLU减少了训练时间，从而简化了模型。最后一层l = L，具有线性激活函数，随后是1×1卷积，然后输出时间序列的预测值ˆ x = [ˆ x（0），...，ˆ x（N） ]。
当训练一个深度神经网络时，使网络无法学习最佳权重的问题之一就是消失/爆炸梯度[2] [8]。当反向传播通过链式规则计算梯度时，当激活函数的导数取小值或大值时，这些数字的乘积可导致初始层中权重的梯度分别消失或爆炸。这导致权重由于梯度太小而更新得太慢，或者由于梯度下降步幅太大而无法收敛到最小值。该问题的一种解决方案是以这种方式初始化卷积层的权重，使得无论是在网络的正向传播还是在反向传播中，权重都不会分别减小或放大输入信号和梯度的幅度。权重的正确初始化将使信号和梯度在整个层中的值范围内保持合理，从而在训练网络时不会丢失任何信息。如[10]中所推导的，为了确保输入的方差与输出的方差相似，充分条件是

这导致零均值高斯分布，其标准偏差为，其中z是层中可训练参数的总数。换句话说，将ReLU单元的权重初始化为（对于τ= 0）为

当时，层l中的滤波器数量乘以滤波器大小1×k
Residual learning
当向网络添加更多层时，标准反向传播将无法找到最佳权重，从而导致更高的训练误差。因此，这个问题称为退化问题[11]，它不是由过度拟合引起的。考虑一个具有少量层的浅层网络，以及更深的对应层。更深层次的模型不应导致更高的训练误差，因为存在一种构造上的解决方案：将添加的层中的所有权重设置为标识映射。然而，在实践中，梯度下降算法在学习身份映射时往往会遇到问题。解决此问题的建议方法是使用残差连接[11]，该残差迫使网络逼近所需映射H（x）-x，而不是H（x），以便可以通过驱动所有权重来学习身份映射。归零。通过将权重驱动为零来优化残差映射往往比学习身份更容易。残余连接的实现方式是使用快捷连接，该连接跳过一个或多个层，因此可以不修改地添加到跳过层的输出中。尽管实际上，最佳权重不太可能完全是身份映射，但是如果最佳功能比零映射更接近身份，则建议的残差连接仍将帮助网络学习更好的最佳权重。
类似于[23]，在我们的网络中，我们在从输入到卷积再到输出的每个膨胀卷积之后添加一个残差连接。在＞ 1的情况下，来自非线性的输出在添加剩余连接之前经过1×1卷积。这样做是为了确保残留连接和膨胀卷积的输出都具有相同数量的通道。这使我们可以堆叠多个层，同时保留网络正确映射初始层中学习到的依赖项的能力
Relation to discrete wavelet transform
网络的结构与离散小波变换（DWT）密切相关。小波分析可用于通过将具有不同比例（宽度）和位置的小波函数与该函数匹配，来了解给定函数如何从一个周期到下一个周期变化。 DWT是且的线性变换，通过将信号与高通和低通滤波器进行卷积，将信号分解为高频和低频分量。特别是，在变换的每个级别j，输入信号都被分解为小波，并且缩放系数和（也称为近似值和细节），其中k = 0，... ，− 1，同时将输入x与滤波器h和g进行卷积

其中ψ（·）是小波，而φ（·）是缩放函数。在随后的每个级别中，我们都将变换应用于近似系数，以这种方式丢弃高频分量（细节）并最终得到输入信号的平滑版本。这与CNN的结构非常相似，在CNN的每个后续层中，我们使用可学习的滤波器对来自上一层的输入进行卷积。在每一层中，过滤器用于识别数据中的局部依存关系，随后将其组合以表示更多的全局特征，直到在最后一层中我们计算出感兴趣的输出为止。与DWT中的固定á优先级相反，通过允许滤波器是可学习的，我们的目标是通过以这种方式识别数据中的某些模式，从而找到使目标函数（1）最小的滤波器权重。时间序列的准确预测。
Conditioning
当以另一个序列预测一个时间序列时，我们的目标是最大化条件似然，

image.png

时间序列y的条件是通过计算卷积的激活函数来完成的，其中第一层的滤波器and 为

对于每个滤波器h = 1，...，。预测x(t + 1)时，网络的接收场必须仅包含x（0），...，x（t）和y（0），...，y（t）。因此，类似于输入，为保持因果关系，条件后会附加一个零值的矢量，大小为接收场的大小。在[23]中，作者建议采用具有1×1的滤波器。给定较短的输入窗口，这种类型的条件并不总是能够捕获时间序列之间的所有依赖关系。因此，我们使用1×k卷积，以较少的层数增加了学习正确依赖项的可能性。因此，网络的接收域包含输入和条件的k个元素
代替第一层中的剩余连接，我们从输入以及条件到膨胀卷积的结果中添加由1×1卷积参数化的跳过连接。通过使用来自每个单独条件的M个扩张卷积并将它们与输入相加，可以轻松地将条件扩展为多元M×N时间序列。跳过连接的参数化确保我们的模型能够正确提取预测与输入和条件之间的必要关系。具体而言，如果特定条件不能改善预测，则模型可以简单地通过将参数化跳过连接（即1×1卷积）中的权重设置为零来简单地学习舍弃该条件。这使条件能够以区分方式增强预测。如果滤波器的数量filers大于1，则参数化的跳过连接将使用与filers的1×1卷积，从而使跳过连接与原始卷积之和有效。网络结构如图2.3所示。

图2.3

图2.3：网络结构。在第一层（L）中，对输入和条件（具有零填充）进行卷积，通过非线性传递并与参数化的跳过连接求和。来自该第一层的结果是后续扩张的卷积层中的输入，并且从卷积的输入到输出都有剩余连接。对其他层重复此操作，直到获得层L（M）的输出。该输出通过1×1卷积传递，得到最终输出：预测的时间序列（R）。
备注2（学习非线性依赖性的能力）。我们在这里对模型学习时间序列内部和之间的非线性相关性的能力进行评论。前馈神经网络需要至少一个具有足够大量隐藏单元的隐藏层，以便近似非线性函数[13]。如果在CNN中将滤波器宽度设置为1，则模型学习非线性相关性的必要条件将是> 1，因为在这种情况下，滤波器的作用类似于隐藏单元的作用。替代地，在CNN中学习非线性要求同时使用滤波器宽度和大于一层的层数。每一层实质上是计算一个点积和前一层中几个输出的非线性变换之和。该输出又是输入和条件的组合，并且隐藏单元的作用通过滤波器宽度上的总和来发挥，从而允许在时间序列中和时间序列之间学习非线性关系。

讨论与结论在本文中，我们介绍并分析了基于卷积神经网络WaveNet架构[23]的条件时间序列预测方法的性能。该网络利用了应用于输入和多种条件的膨胀卷积层，从而了解了数据中以及数据之间的趋势和关系。我们分析了WaveNet模型在各种时间序列上的性能，并将其与时间序列预测的最新技术，LSTM模型和线性自回归模型进行了比较。我们得出结论，即使时间序列预测仍然是一项复杂的任务，并且很难找到一个适合所有人的模型，但我们已经证明，WaveNet是一个简单，高效且易于解释的网络，可以作为预测的强大基准。尽管如此，仍有改进的空间。提高CNN学习非线性依赖性的能力的一种方法是使用大量的层和滤波器。从图3.3中我们可以看到，在学习非线性（需要大量的层和滤波器）的能力与过度拟合之间存在权衡的问题，因为大量的层会导致较大的接受度字段和许多参数。通过使用自回归模型和CNN的组合，在[3]中也解决了内存需求和非线性之间不平衡的问题。解决此问题的另一种方法可能是将参数化的跳过连接与自适应滤波器结合使用，并将在我们的进一步工作中进行研究。此外，WaveNet模型被证明是LSTM模型的强大竞争者，尤其是在考虑训练时间时。尽管在相对较短的时间序列上，与训练时间相比，预测时间可以忽略不计，但对于较长的时间序列，可以通过实施利用网络存储结构的最新变体来加快自回归模型的预测，请参见[21]。 ]或通过在频域中进行傅里叶变换来加快卷积，如[19]，[22]中所述。最后，众所周知，数据点之间的相关性在日内基础上更强。因此，可能有必要在日间数据上测试模型，以查看该模型学习长期依赖项的能力在这种情况下是否更有价值

文献综述

[1] A. Aussem and F. Murtagh, Combining neural network forecasts on wavelet-transformed time series,Connection Science, 9 (1997), pp. 113–122.
[1] A. Aussem和F. Murtagh，结合小波变换时间序列的神经网络预测，Connection Science，9（1997），第113-122页。
[2] Y. Bengio, P. Simard, and P. Frasconi, Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on Neural Networks, 5 (1994).
[3] M. Binkowski, G. Marti, and P. Donnat, Autoregressive convolutional neural networks for asyn-chronous time series, ICML 2017 Time Series Workshop, (2017).
[4] K. Chakraborty, K. Mehrotra, C. K. Mohan, and S. Ranka, Forecasting the Behavior of Multivariate Time Series using Neural Networks, Neural networks, 5 (1992), pp. 961–970.
[5] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555, (2014).
[6] R. Cont, Empirical properties of asset returns: Stylized facts and statistical issues, (2001).
[7] T. Fisher and C. Krauss, Deep learning with Long Short-Term Memory networks for financial market predictions, F AU Discussion papers in Economics, (2017).
[8] X. Glorot and Y. Bengio, Understanding the Difficulty of Training Deep Feedforward Neural Net-works, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, (2010).
[9] J. D. Hamilton, Time series analysis, vol. 2, Princeton university press Princeton, 1994.
[10] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level per-formance on imagenet classification, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026–1034.
[11] , Deep residual learning for image recognition, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[12] S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural computation, 9 (1997),pp. 1735–1780.
[13] K. Hornik, Approximation capabilities of multilayer feedforward networks, Neural networks, 4 (1991),pp. 251–257.
[14] D. Hsu, Time series forecasting based on augmented Long Short-Term Memory, arXiv preprint arXiv:1707.00666, (2017).
[15] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980,(2014).
[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, (2012), pp. 1097–1105.
[17] S. Lahmiri, Wavelet low- and high- frequency components as features for predicting stock prices with backpropagation neural networks, Journal of King Saud University - Computer and Information Sciences,26 (2014), pp. 218–227.
[2] Y. Bengio，P。Simard和P. Frasconi，用梯度下降学习长期依赖性很困难，IEEE Transactions on Neural Networks，5（1994）。
[3] M. Binkowski，G。Marti和P. Donnat，异步时间序列的自回归卷积神经网络，ICML 2017时间序列研讨会，（2017年）。
[4] K. Chakraborty，K。Mehrotra，C。K. Mohan和S. Ranka，《使用神经网络预测多元时间序列的行为》，《神经网络》，第5期（1992年），第961–970页。
[5] J. Chung，C。Gulcehre，K。Cho和Y. Bengio，门控循环神经网络在序列建模上的经验评估，arXiv预印本arXiv：1412.3555，（2014年）。
[6] R. Cont，资产收益的经验性质：程式化的事实和统计问题，（2001年）。
[7] T. Fisher和C. Krauss，《用长短期记忆网络进行深度学习进行金融市场预测》，《非盟经济学讨论》，（2017年）。
[8] X. Glorot和Y. Bengio，“理解深度前馈神经网络的训练难度”，第13届人工智能与统计国际会议论文集，（2010年）。
[9] J. D. Hamilton，时间序列分析，第一卷。 2，普林斯顿大学出版社，普林斯顿，1994年。
[10] K. He，X。Zhang，S。Ren和J. Sun，深入研究整流器：在IEEE国际会议论文集上超越了人类在图像网络分类方面的性能。计算机视觉，2015年，第1026至1034页。
[11]，用于图像识别的深度残差学习，在IEEE计算机视觉和模式识别会议论文集，2016年，第770–778页。
[12] S. Hochreiter和J. Schmidhuber，《长短期记忆，神经计算》，第9期，1997年，第1735-1780页。
[13] K. Hornik，多层前馈网络的逼近能力，神经网络，第4期（1991），第251-257页。
[14] D. Hsu，基于增强的长期短期记忆的时间序列预测，arXiv预印本arXiv：1707.00666，（2017年）。
[15] D. Kingma和J. Ba，亚当：一种随机优化方法，arXiv预印本arXiv：1412.6980，（2014年）。
[16] A. Krizhevsky，I。Sutskever和G. E. Hinton，《深度卷积神经网络的ImageNet分类》，神经信息处理系统进展25，（2012年），第1097-1105页。
[17] S. Lahmiri，“小波低频和高频分量作为利用反向传播神经网络预测股票价格的特征”，《沙特国王大学学报-计算机与信息科学》，第26卷（2014年），第218-227页。
[18] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[19] M. Mathieu, M. Henaff, and Y. LeCun, Fast training of convolutional networks through FFTs,ArXiv e-prints, (2013).
[20] R. Mittelman, Time-series modeling with undecimated fully convolutional neural networks, arXiv preprint arXiv:1508.00317, (2015).
[21] P. Ramachandran, T. L. Paine, P. Khorrami, M. Babaeizadeh, S. Chang, Y. Zhang, M. A.Hasegawa-Johnson, R. H. Campbell, and T. S. Huang, Fast generation for convolutional autore-gressive models, arXiv preprint arXiv:1704.06001, (2017).
[22] O. Rippel, J. Snoek, and R. P. Adams, Spectral representations for convolutional neural networks,NIPS15 Proceedings of the 28th International Conference on Neural Information Processing Systems,(2015), pp. 2449–2457.
[23] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalch-brenner, A. Senior, and K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, ArXiv e-prints, (2016).
[24] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu, Pixel Recurrent Neural Networks,CoRR, abs/1601.06759 (2016).
[25] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and
K. Kavukcuoglu, Conditional Image Generation with PixelCNN Decoders, CoRR, abs/1606.05328 (2016).
[26] Z. W ang, W. Yan, and T. Oates, Time Series Classification from Scratch with Deep Neural Net-works: A Strong Baseline, CoRR, abs/1611.06455 (2016).
[27] F. Yu and V. Koltun, Multi-Scale Context Aggregation by Dilated Convolutions, ArXiv e-prints,(2015).
[28] G. Zhang, B. E. Patuwo, and M. Y. Hu, Forecasting with artificial neural networks: The state of the art, International journal of forecasting, 14 (1998), pp. 35–62.
[29] G. P. Zhang, Time series forecasting using a hybrid ARIMA and neural network model, Neurocom-puting, 50 (2003), pp. 159–175.
[30] Y. Zheng, Q. Liu, E. Chen, Y. Ge, and J. Zhao, Exploiting Multi-Channels Deep Convolutional Neural Networks for Multivariate Time Series Classification, Front. Comput. Sci., 10 (2016), pp. 96–112.
[18] Y. LeCun，L。Bottou，Y。Bengio和P. Haffner，基于梯度的学习应用于文档识别，IEEE，86（1998），pp。2278-2324。
[19] M. Mathieu，M。Henaff和Y. LeCun，通过FFT快速训练卷积网络，ArXiv电子版，（2013年）。
[20] R. Mittelman，使用未抽取的全卷积神经网络进行时间序列建模，arXiv预印本arXiv：1508.00317，（2015年）。
[21] P. Ramachandran，TL Paine，P。Khorrami，M。Babaeizadeh，S。Chang，Y。Zhang，MA Hasegawa-Johnson，RH Campbell和TS Huang，卷积自回归模型的快速生成，arXiv预印本arXiv：1704.06001 ，（2017年）。
[22] O. Rippel，J。Snoek和R. P. Adams，卷积神经网络的频谱表示，第28届国际神经信息处理系统会议NIPS15论文集，（2015年），第2449-2457页。
[23] A. van den Oord，S。Dieleman，H。Zen，K。Simonyan，O。Vinyals，A。Graves，N。Kalchbrenner，A。Senior和K. Kavukcuoglu，WaveNet：原始音频的生成模型，ArXiv电子版，（2016年）。
[24] A. van den Oord，N。Kalchbrenner和K. Kavukcuoglu，像素递归神经网络，CoRR，abs / 1601.06759（2016）。
[25] A. van den Oord，N。Kalchbrenner，O。Vinyals，L。Espeholt，A。Graves和K. Kavukcuoglu，《使用PixelCNN解码器的条件图像生成》，CoRR，abs / 1606.05328（2016年）。
[26] Z. Wang，W。Yan和T. Oates，《使用深度神经网络从头开始的时间序列分类：强大的基线》，CoRR，abs / 1611.06455（2016）。
[27] F. Yu和V. Koltun，通过膨胀卷积进行多尺度上下文聚合，ArXiv电子版，（2015年）。
[28] G. Zhang，B。E. Patuwo和M. Y. Hu，《使用人工神经网络进行预测：最新技术》，国际预测杂志，第14期（1998年），第35-62页。
[29] G. P. Zhang，使用混合ARIMA和神经网络模型进行时间序列预测，Neurocomputing，50（2003年），第159-175页。
[30]郑Y，刘Q，陈鄂，葛Y，赵J，为多变量时间序列分类开发多通道深度卷积神经网络，前面。计算Sci。，10（2016），第96–112页。

下面就是我阅读论文后对论文的理解

20-4-4论文阅读：Conditional time series forecasting with convolutional neural networks

卷积神经网络的条件时间序列预测

你可能感兴趣的:(20-4-4论文阅读：Conditional time series forecasting with convolutional neural networks)