2020-04-22(论文阅读第二次):Multi-factor Based Stock Price Prediction Using Hybrid Neural Networks with A...

题目:带有注意机制的混合神经网络基于多因素的股票价格预测


  由于存在许多影响预测模型的因素,因此很难预测诸如股票价格之类的时间序列数据。同样,不同因素对股票价格的影响可能是线性的或非线性的。近年来,股票价格的良好模型的产生对研究人员提出了挑战。长短期记忆(LSTM)是递归神经网络(RNN)的一种变体,它可以捕获时间序列并在时间序列预测上获得了巨大的成功。同样,卷积神经网络(CNN)在从多维序列中提取特征方面也很出色。在本文中,我们提出了具有多种因素的CNN-LSTM混合神经网络来预测股票价格。此外,我们添加了一种关注机制来提高CNN-LSTM模型的可伸缩性和准确性。在实验中,我们在两个真实的股票数据集中比较了我们提出的模型和不同方法。结果证实了我们提出的方法的效率和可扩展性。
索引词:股票预测,多因素,CNN,LSTM,关注机制

  时间序列是按时间顺序索引的一系列数据点。最常见的是,时间序列是在连续的等间隔时间点上获取的序列。在过去的几十年中,许多研究人员都对时间序列预测问题感兴趣。但是,由于存在许多影响预测结果的因素,因此难以预测诸如股价,天气和汇率之类的时间序列数据。例如,影响股票价格的因素不仅与历史股票价格有关,而且还可能与交易量,汇率的变化以及经济政策的变化等有关。此外,不同因素对股票价格的影响。股票价格可以是线性的或非线性的。股票价格和多因素之间的复杂关系使研究人员面临着产生合理,适当的股票价格预测模型的挑战。在股市中,对投资者而言,尽早做出已知的股票判断至关重要。
  通常,可以使用两类模型来分析和预测股票价格:线性模型和非线性模型。线性模型,例如自回归模型(AR)[1],自回归移动平均值(ARMA)[2]及其变化自回归综合移动平均值(ARIMA)[3],是众所周知的计量经济学方法,可以生成模型的线性关系。历史数据。但是,在某些实际情况下,这些模型无法捕获数据中的基础动态。人工神经网络(ANN)在检测非线性关系方面占主导地位,例如回归[4]和分类[5]的应用,这吸引了研究人员近年来对神经网络的关注。
  递归神经网络(RNN)[6]是一类ANN,在捕获时间序列方面表现出色。与ANN不同,RNN中保留着一个隐藏状态,该状态可以随着时间的流逝而更新,因此可以存储先前的信息并将其用于当前预测。不幸的是,由于序列较长,传统的RNN可能会导致梯度消失问题[7]。换句话说,常规的RNN缺乏长期信息处理的能力。长短期记忆(LSTM)[8]和门控循环单元(GRU)[9]是RNN的两个变体,旨在解决梯度消失问题并通过使用存储单元来学习时间序列数据中的长期依存关系和门机制。
  过去有一些文献着重于使用LSTM预测股票价格,这些文献记录在[11],[12],[20]中。在数据预处理阶段,我们通常将股票价格数据分为多个序列,每个序列都根据时间戳进行排序。如果序列的最大数量为,并且每个序列的长度为,则LSTM模型的输入数据为二维矩阵。但是,随着序列m的长度变大,我们必须增加LSTM的时间步长来处理更多信息。对于多因素相关的时间序列数据(例如股票价格),明智的选择是从每个序列中提取特征。
  卷积神经网络(CNN)[21]是一种获得图像数据特征的出色技术。 CNN在计算机视觉领域和图像处理领域中的图像数据建模方面已显示出巨大的成功。通常,CNN包含三个基本组成部分:卷积层,池化层和完全连接层。卷积层尝试从二维矩阵中提取特征并获得卷积输出。池化层,尤其是最大池化层,试图保留卷积输出的重要特征。然后将池化层的输出发送到完全连接的层以获取结果。在本文中,我们使用CNN从财务时间序列数据中提取特征以预测股票价格。
  此外,为了提高CNN-LSTM模型的可伸缩性,我们使用注意力机制来记忆长序列。注意是深度学习社区中一个相当流行的概念,也是一种有用的工具。注意力神经网络在机器翻译[14]和图像字幕[15]中获得了成功。在本文中,我们还考虑了CNN-LSTM模型中的注意力机制。我们提出了具有注意机制的基于多因素的CNN-LSTM混合模型。
  本文的主要贡献如下:
1)我们考虑了一种多因素影响模型来预测股票价格。
2)我们结合CNN和LSTM并提出CNN-LSTM混合模型来预测股价。
3)我们使用一种注意力机制来提高CNN-LSTM模型的可伸缩性。
4)我们使用两个不同的股价数据集进行了实验,结果表明了所提出算法的效率和可扩展性
  本文的其余部分安排如下。第二节回顾了相关工作。在第三节中,我们解释了我们提出的模型的细节。第四部分展示了实验结果。最后,我们在第五节中总结了论文。

  在本节中,我们将回顾过去的文献以进行股价预测。第II-A节概述了传统的线性ARIMA模型。在II-B,II-C和II-D节中,我们讨论了使用神经网络进行的股价预测的发展。最后,我们在第II-E节中回顾了有关基于注意力的神经网络的一些现有工作。(ARIMA的就不在笼统的赘述了)
  
  人工神经网络可以检测出多种因素与股价之间的非线性关系,从而可以解决ARIMA模型的局限性。在最近的几十年中,许多研究人员研究了ANN模型来预测股票价格。 Kimoto等。 [16]使用东京证券交易所的ANN模型来预测股票价格。仿真结果比其他方法有显着改善。 Kim等。 [17]提出了一种遗传算法方法来改进学习算法并减少特征空间的复杂性。然后将遗传算法与人工神经网络相结合来预测股价指数。 Tsang等。 [18]使用人工神经网络来预测香港股票价格,设计了一个NN5系统。在[19]中,Wang等。通过使用基于小波消噪的反向传播神经网络来预测股票价格,他提出的该方法被证明优于其他传统的反向传播模型。
  C. Recurrent Neural Network
  RNN是一种神经网络,可以捕获时间序列数据的时间动态。与传统的ANN无法记住序列的先前历史信息不同,RNN具有隐藏状态以维持整个序列的特征。
  LSTM和GRU是RNN的两个变体,旨在克服梯度消失的问题。 Chen等。 [20]提出了一种基于LSTM的中国股票收益预测方法。实验结果表明,输入数据量越大,精度越高。 Nelson等。 [11]建立了一个LSTM网络,根据价格历史以及技术分析指标来预测股票的未来趋势。在[4]中,Bao等人。通过使用三个阶段的过程来预测多个市场指数期货。实验结果表明,提出的三阶段模型优于其他基准。
  D. Convolutional Neural Network
  CNN是从图像数据中提取特征的好方法。 CNN在计算机视觉和图像处理中对图像数据建模方面显示出了惊人的成功。对于时间序列数据,我们可以将财务时间序列数据转换为图像数据,并使用CNN获得股价特征。 Chen等。 [21]提出了平面特征表示方法和深度CNN模型来改进算法交易框架。 Ba等。 [22]提出使用深度CNN通过使用文本特征来预测卷积层和完全连接层的输出权重。 Hu等。 [23]提出了一种用于预测金融时间序列数据的新架构。具体来说,他们通过使用CNN的卷积层提取非线性特征,并将特征聚集在自动编码器的隐藏权重层中。
  由于CNN在数据特征提取和RNN方面的出色表现在时间序列数据处理方面表现优异,因此最佳架构应了解每种模型的不同特征,以提高预测精度。基于这种动机,我们提出了一种优化的体系结构,以通过融合金融时间序列数据中不同表示的特征来集成CNN和LSTM,以提高股票价格预测的准确性。
  
  注意机制是深度学习社区中的一个众所周知的概念和有用的工具。注意力神经网络在机器翻译[14],图像字幕[15]和语音识别[24]中获得了成功。
  通常,注意力是一种加权求和。 Wang等。 [25]提出了三种注意机制,称为基于位置的注意,一般注意和基于串联的注意。 Chen等。 [26]在协作过滤中引入了一种新颖的注意力机制,以解决多媒体推荐中具有挑战性的项目和组件级隐式反馈。具体来说,他们使用两个专心的神经网络来选择多媒体项目的信息组件和项目级别的注意力模块。该模型的实验结果优于最新方法。
  在本文中,为了提高集成神经网络模型的可扩展性和准确性,我们添加了记忆长序列的注意力机制。

  在本节中,我们通过将CNN和LSTM与注意力机制相结合,提出了一种基于多因素的股票价格预测方法。具体来说,我们首先在第III-A节中解释CNN模型的细节。然后在第III-B节中将CNN模型与LSTM结合起来。最后,在第III-C节中,我们将注意力机制添加到LSTM神经网络中。
  假设是根据时间戳排序的股票数据,其中是第个股票。在我们的模型中,我们使用m维向量表示,这意味着每只股票都有个影响因子其中。图1展示了单因素LSTM和多因素LSTM结构。对于单因素模型,我们使用收盘价作为LSTM的输入。对于多因素模型,我们为LSTM神经网络使用六个因素,即开盘价,收盘价,数量数据,高价,低价和货币。

图一

  将一个股票库存序列定义为。我们模型的输出是股票的收盘价,其中。注意,代表股票的收盘价。由于是矩阵,因此我们可以使用CNN提取矩阵的特征。
  A. CNN for Feature Extraction
  图2演示了CNN的结构。 CNN的输入为。输入层包含矢量序列,我们可以使用过滤器扫描输入层。在这项工作中,我们使用64个过滤器来检测输入数据的特征。在卷积层中,我们选择ReLu激活函数并将其表示为特征图。
  在池化层中,最大操作是最常用的方法。为了提取重要特征并减少卷积层中的计算,我们选择使用最大池化层。在Max-pooling层之后,我们应用了dropout技术来克服过度拟合的问题。在这项工作中,我们将辍学率设置为0.3。
图二

  B. LSTM for Time series Prediction
  LSTM神经网络的输入是序列,它们是CNN模型的输出。每个序列分为多个元素。在每个时间步长,一个元素用作输入。如图3所示,空白圆圈代表状态,灰色圆圈代表输入。如果按照时间步长展开LSTM,则可以将LSTM表示为网络,如图3右侧所示。每个时间步长的输出和输入表示为oi和xi。根据先前的si-1和当前输入xi更新状态si:
其中f是非线性激活函数,例如ReLU,tanh和Sigmoid。在我们的工作中,我们使用ReLU激活功能。时间步骤i的输出计算为:

图三

  C. Attentive Neural Network
  由于注意力机制可以提高预测的准确性,因此我们提出了回归任务的注意力机制。令为由LSTM模型的输出向量组成的矩阵,其中表示序列长度。我们使用s表示LSTM输出的得分向量,该得分向量由矩阵的加权和形成:

然后,我们使用一个完全连接的层来映射注意力机制的输出,并获得所提出体系结构的最终结果。公式如下所示:


  金融时间序列预测(例如股票价格预测)对于投资者尽早做出知名的股票判断至关重要。通常,有多种因素会影响股价。在本研究中,我们收集了六个影响因素,即开放交易价格,收盘价,数量数据,高价,低价和货币,以预测股票的收盘价。此外,我们使用CNN从两个真实的股票数据集中提取特征,并将CNN与LSTM模型集成在一起。为了提高预测的准确性和可扩展性,我们添加了基于LSTM神经网络的注意力机制。

你可能感兴趣的:(2020-04-22(论文阅读第二次):Multi-factor Based Stock Price Prediction Using Hybrid Neural Networks with A...)