[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]

文章目录

  • 1.时序数据预测为什么要用LSTM网络?
  • 2.LSTM结构介绍
    • LSTM单元的网络体系架构
  • 3.深度学习在大数据环境下的时间序列预测
  • 4.时序数据预测应用领域
  • 5.元启发式算法
  • 6.短期电力负荷预测

1.时序数据预测为什么要用LSTM网络?

在使用深度学习处理时序数据时,RNN是经常用到的模型之一。

在深度学习领域中(尤其是RNN),“长期依赖“问题是普遍存在的。长期依赖产生的原因是当神经网络的节点经过许多阶段的计算后,之前比较长的时间片的特征已经被覆盖,导致产生梯度消失/爆炸

处理梯度爆炸可以采用梯度截断的方法。所谓梯度截断是指将梯度值超过阈值θ \thetaθ的梯度手动降到θ \thetaθ 。

梯度消失不能简单的通过类似梯度截断的阈值式方法来解决,因为长期依赖的现象也会产生很小的梯度。例如,对于时序数据[ t 1 , t 2 , t 3 , . . . , t 8 , t 9 , t 10 ] [t1,t2,t3,…,t8,t9,t10][t1,t2,t3,…,t8,t9,t10],我们希望 t 9 t9t9时刻能够读到 t 1 t1t1时刻的特征,在这期间内我们自然不希望隐层节点状态发生很大的变化,所以 [ t 2 , t 8 ] [t2,t8][t2,t8]时刻的梯度要尽可能的小才能保证梯度变化小。很明显,如果我们刻意提高小梯度的值将会使模型失去捕捉长期依赖的能力。

LSTM(long short term memory,长短期记忆网络)是预测时间序列最常用的神经网络模型之一。但是这种神经网络模型相当复杂,需要特定的结构、数据前期处理等操作。
LSTM提出的动机是为了解决上面我们提到的长期依赖问题。

2.LSTM结构介绍

	RNN有梯度消失的缺点。因此,在很长一段时间内发生的非稳态的依赖性就不能被RNN很好地捕获。

由于梯度消失效应,RNN不能充分捕捉到具有不同特征的多个时间相关性和长期相关性。因此,门控机制被开发来取代经典的激活函数。LSTM单元拥有三个门,一个输入门、一个遗忘门和一个输出门,它们允许对通过迭代传播来捕获长期依赖关系的单元状态向量进行更改。细胞内受控的信息流使网络能够记住具有不同特征的多个时间依赖关系。

进一步介绍LSTM网络架构之前,门控循环单元(GRU)作为LSTM单元的一种修改被引入。

GRU对时间序列进行建模,目的是创建一种机制,通过改进短期信息的集成来补充预测长期依赖关系的能力。其目的是在不同的时间范围内实现依赖性的自适应建模。

与LSTM相比,GRU具有简化的单元结构,也基于门控系统,但只有一个更新和复位门。与LSTM的主要区别是,在每次迭代时,细胞状态可以完全修改,并通过复位门用短期信息更新。另一方面,LSTM提供了一种机制来限制在每次迭代中可以实现的变更梯度。因此,LSTM不允许完全丢弃过去的信息,而GRU却可以

LSTM单元的网络体系架构

该体系结构分为基于注意机制的优化胞态表示的LSTM和基于交叉模态预测的胞态交互的LSTM。
1.基于注意机制的优化胞态表示的LSTM
2.基于交叉模态预测的胞态交互的LSTM

文献:[12]递归神经网络长短期记忆自动编码器序列到序列网络时间序列预测

3.深度学习在大数据环境下的时间序列预测

从理论上介绍了深度学习在大数据环境下的时间序列预测。首先,描述了文献中最常用的用于预测时间序列的体系结构。然后,进行了最新的分析,描述了深度学习的工作和处理大数据的框架。

3.1 深度前馈神经网络(DFFNN),又称多层感知器,是由于单层神经网络无法学习某些功能而产生的。DFFNN的体系结构由输入层、输出层和不同的隐藏层组成,如图2所示。此外,每个隐藏层都有一定数量的神经元待确定。
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第1张图片

3.2 循环神经网络(rnn)是专门为处理顺序数据而设计的,如机器翻译问题中的单词序列、语音识别中的音频数据或预测问题中的时间序列。所有这些问题都有一个共同的特征,即数据之间存在时间依赖性。传统的前馈神经网络不能考虑这些依赖关系,而RNNs的出现正是为了解决这个问题因此,RNN体系结构中的输入数据既是过去的数据,也是当前的数据。根据网络中数据输入和输出的数量,有不同类型的架构,如一对一(一个输入和一个输出)、一对多(一个输入和多个输出)、多对一(多个输入和多个输出)和一个输出),以及多对多(许多输入和输出)。最常见的rnn是多对一的分类问题,或多对多的机器翻译或时间序列预测等。

[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第2张图片

3.3 Elman RNN网络
Elman网络(ENN)是第一个RNN,它包含了一个隐藏单元的t状态来对数据序列进行预测ENN由一个经典的单层前馈网络组成,但隐藏层连接到一个称为上下文层的新层,使用固定的权值等于1。
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第3张图片
3.4 Long short-term memory长短期时间记忆网络

标准的基本神经网络存在梯度消失的问题,梯度随着层数的增加而减小。事实上,对于层数较多的深度RNNs,梯度实际上变成了零,阻碍了网络的学习。

因此,这些网络具有短期记忆能力,在处理需要记住完整序列中包含的所有信息的长序列时,不能获得良好的结果。为了解决逐渐消失的梯度问题,长短期记忆(LSTM)循环网络应运而生为此,

LSTM使用三个gate来保存长期存在的相关信息,丢弃不相关的信息。这些门是Gf忘记门,Gu更新门,和Go输出门。Gf决定哪些信息应该被丢弃或保存。接近0的值表示忘记过去的信息,而接近1的值表示保留过去的信息。顾决定用什么新信息来更新ct记忆状态。因此,同时使用Gf和Gu更新ct。最后,Go决定哪个输出值将作为下一个隐藏单元的输入。
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第4张图片
3.5 Gated recurrent units.
具有门控循环单元(GRU)的循环网络是像LSTM那样的长期记忆网络,但由于LSTM网络的高计算成本,它们作为LSTM的简化而出现。

GRU是研究人员集中研究的最常用的版本之一,并且发现它对许多不同的问题都很健壮和有用。在rnn中使用闸使得改进捕获非常长的依赖关系成为可能,使rnn更加有效。

LSTM有三个门,而不是两个,所以更加强大和有效,而GRU模型更简单,只有两个门,Gu更新门和Gr关联门,计算速度更快.
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第5张图片

3.6 Bidirectional RNN.双向RNN

在自然语言处理(NLP)领域中存在一些问题,例如,要预测给定瞬间的数据序列的值,需要该瞬间之前和之后的序列信息。双向循环神经网络解决了这一问题
brnn的主要缺点是在进行预测之前需要完整的数据序列

[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第6张图片
图7展示了BRNN的基本架构。
一个BRNN可以被看作两个rnn,其中不同的隐藏单元有两个值,一个是向前计算的,另一个是向后计算的。
此外,BRNN单元可以是标准RNN单元,也可以是GRU或LSTM单元。事实上,带有LSTM单元的BRNN通常用于处理许多NLP问题

3.7 Deep recurrent neural network. 深度递归神经网络 (DRNN)

深度递归神经网络(DRNN)可以被认为是具有多层递归神经网络,也称为堆叠递归神经网络。

隐藏单元可以是标准RNN、GRU或LSTM单元,它可以是单向的,也可以是双向的,

一般来说,DRNN在时间序列预测方面工作得很好,但当输入的数据序列非常长时,其性能就会下降。为了解决这个问题,注意力机制可以被纳入到模型中,这是深度学习中最强大的想法之一注意力模型允许神经系统网络在产生输出时只注意输入数据序列的一部分。这种注意是通过使用权值来建模的,权值是通过单层前馈神经网络来计算的。
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第7张图片

3.8 Convolutional neural networks 卷积神经网络CNN

卷积神经网络(CNN)由Fukushima在参考文献36中提出,是图像处理和计算机视觉中最常见的架构之一
cnn有三种层次:卷积、池化和全连接

卷积层的主要任务是从数据输入中学习特征。为此,通过使用矩阵之间的卷积操作,将预定义大小的过滤器应用于数据。卷积是所有元素的乘积的和。

池化减少了输入的大小,加快了计算速度,防止了过拟合。最流行的池化方法是average和max池化,它们分别使用平均值或最大值来总结值。

一旦特征被卷积层提取出来,预测是通过使用全连接层进行的,也称为密集层,如DFFNN。这些最后的全连接层的输入数据是由卷积层和池化层产生的扁平特征。

最近出现了一种CNN的变体,称为时间卷积网络(TCNs)用于数据序列,在执行时间和内存需求方面直接与drnn竞争。
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第8张图片
[时序数据趋势预测]论文阅读思考总结[2022.3.25-2022.4.1]_第9张图片

文献:[8]时间序列预测的深度学习:一项调查

4.时序数据预测应用领域

4.1 能源和燃料
随着可再生能源使用的增加,需要准确的估算来改进电力系统的规划和运行。许多技术已经被用来进行预测,包括深度学习回顾过去几年的文献,可以得出结论,绝大多数的深度学习架构都适合这个应用领域。
4…2 图像和视频
图像和视频分析是一个非常广泛的研究领域,它涉及到任何应用领域。例如,Hu等人对基于图像的癌症检测和诊断进行了广泛的深度学习研究。196在文献197中,作者总结了一些用于从定时图像中识别视频序列动作的技术和研究。作者在参考文献107中提出了一种应用新神经网络来预测和监测由无人机进行的摄影测量的斜坡位移。reference .117中作者结合GRU、RNN和CNN对卫星图像时间序列进行分类。

但在文献中,使用基于卷积的网络来解决使用图像或视频时间序列数据的预测问题占主导地位。

4.3 财务
几十年来,财务分析一直是一个具有挑战性的问题。因此,在这个应用领域有很多的研究工作

4.4 环境
环境数据分析是科学界最受欢迎的领域之一。其中许多工作也是基于深度学习技术在预测时间序列方面的应用

4.5 工业
在工业部门,深度学习技术也被用于执行各种不同的任务例如,TCN和BRNN可以用于交通流预测。LSTM可用于多种目的,如工艺规划、施工设备识别或提高组织的绩效。

4.6 健康
深度学习体系结构的使用将在未来几年得到推广。然而,由于时间序列在该领域普遍较短,且循环网络训练的计算成本较高,因此使用深度学习模型进行时间序列预测的应用并不十分广泛。

时间卷积网络TCN已经成为时间序列预测中最广泛使用的通用架构之一

5.元启发式算法

元启发式算法(MetaHeuristic Algorithm)是启发式算法的改进,它是随机算法与局部搜索算法相结合的产物。

元启发式算法是相对于最优化算法提出来的,一个问题的最优化算法可以求得该问题的最优解,而元启发式算法是一个基于直观或经验构造的算法,它可以在可接受的花费(指计算时间和空间)下给出问题的一个可行解,并且该可行解与最优解的偏离程度不一定可以事先预计。

元启发式算法包括禁忌搜索算法、模拟退火算法、遗传算法、蚁群优化算法、粒子群优化算法、人工鱼群算法、人工蜂群算法、人工神经网络算法等

6.短期电力负荷预测

本文的主要目的是评估边缘计算和联邦学习方法在家庭用电的STLF挑战中的使用。

 边缘计算是指在网络的边缘进行数据处理,而不是云计算或远程服务器处理。我们使用长短期记忆(LSTM)[9],这是一个预测时间序列的深度神经网络,它使用之前对房屋的电力负荷的观察来预测未来的负荷。

本文采用LSTM时间序列预测方法对未来电力负荷进行预测。时间序列指的是一组有序的等距数据点序列,它们代表了特定变量随时间的演变。时间序列预测是通过对当前数据点和历史数据点之间的相关性建模来实现的,但需要对预测的准确性进行建模很大程度上依赖于所选模型和历史数据点的质量。

LSTM是一种循环神经网络(RNN),它与传统的前馈神经网络有本质的区别,并且比标准的RNN更高效。序列学习是LSTM的长处。它能够建立之前的数据点和当前环境之间的时间相关性,同时解决在rnn中常见的消失和爆炸梯度问题。梯度消失是指长期分量的梯度范数变小,导致较低层的权重不变,而梯度爆炸则是指相反的事件[9]。这是通过它的关键组成部分来实现的:用来记忆过去重要状态的记忆细胞,以及调节信息流动的“门”。
LSTM有三个门:输入门、输出门和遗忘门。在学习的过程中,他们学会为不重要的特征重置记忆单元。几乎所有的序列学习的最新成果都是通过LSTM及其变体实现的,特别是语言翻译和语音识别。在住宅STLF的情况下,期望LSTM网络能够从提供的消费剖面中抽象出一些居民的状态,并保持这些状态的记忆,并根据学习到的信息对未来的消费进行预测。

 联邦学习是机器学习的一种形式,其中大部分训练过程是在被称为客户端的设备之间以分布式方式完成的。

它首先是由谷歌在移动设备的键盘上提出并实现的,用于下一个单词预测[19]。这种方法非常适用于很多情况下:1)当数据隐私敏感,2)当数据相比,规模大,模型更新,3)高度的分布式系统中设备的数量是数量级大于节点在数据中心,4)监督培训当标签可以直接从用户来进行推断。

当数据集不平衡或非同分布时,联邦学习也被证明非常有用。

你可能感兴趣的:(笔记,时序数据预测,python,时序数据库)