2022/12/4周报

目录

摘要

文献阅读

1、题目和摘要

2、问题的引出

3、LSTM结构

4、序列重建和异常检测

5、实验结果

深度学习

1、LSTM

2、缓解梯度消失

总结


摘要

本周在论文阅方面,本周阅读了一篇基于LSTM时间序列重建的生产装置异常检测的论文,对比其它模型LSTM在处理时间序列数据上有着天然的优势。在深度学习上,对LSTM的数学原理进行了学习,了解它在数学上的运行原理,并尝试了推导。

This week,in terms of thesis reading,a paper on abnormal detection of production equipment based on LSTM time series reconstruction is read.Compared with other models, LSTM has natural advantages in processing time series data.In depth learning,learning the mathematical principles of LSTM,understanding its principle and mathematical derivation process.

文献阅读

1、题目和摘要

基于LSTM时间序列重建的生产装置异常检测

DOI:10.11949/j.issn.0438⁃1157.20181050

摘要:工业生产装置通常设置传感器报警阈值进行报警,但是对处于报警阈值以下的时间序列异常难以及时捕 捉。基于统计的传统检测方法在解决时间序列异常检测上存在很大挑战,因此提出基于 long short term memory (LSTM) 时间序列重建的方法进行生产装置的异常检测。该算法首先引入一层LSTM网络对传感器数据的时间序 列进行向量表示,采用另一层LSTM网络对时间序列进行逆序重建,然后利用重建值与实际值之间的误差,通过极 大似然估计方法对该段序列进行异常概率估计,最终通过学习异常报警阈值实现时间序列异常检测。采用ECG测试 数据、能源数据与危险品储罐传感器数据进行了仿真实验,验证了所提方法在不同长度的数据上的有效性。

2、问题的引出

传感器数值是一类具有时间序列特征的数据对象,具有数量大、维数高、更新速度快等特点,基于时间序列的设备异常检测是一项重要的研究内容。现有的研究方法有的不适用于内部密度差异明显的数据集,有的严重依赖参数,有的难以预测时间序列潜在的异常。LSTM 作为一种递归模型,已经被证明在学习并记忆序列长期信息上具有显著优势。文章算法采用纵向结构的双层LSTM,其中底层 LSTM 学习时间序列的向量表示,顶层 LSTM 则基于向量表示对时间序列进行重建。

检查方法:采用正常数据训练上述两层模型的参数,然后对带有异常值的数据进行序列重建,由于异常序列及其重建序列之间会产生更大的差异,因此可以利用这部分差异来监测异常序列;最后按照极大似然估计得到的高斯分布代入误差平方计算异常出现的概率,若概率超过阈值则判定该序列为异常情况,从而实现异常检测。

3、LSTM结构

LSTM 的核心由 input、forget、output 三个记忆胞组成,其能在每个时刻编码输入的信息。每个记忆胞的行为由门(gate)控制,控制信息保存与否,若保存则为 1,否则为 0。详细来说,forget gate f 控制 是否保存当前状态的胞信息,input gate i控制是否 读取输入信息,output gate o控制是否输出新的胞信息。储存模块如下所示。

2022/12/4周报_第1张图片 

算法的基本流程是首先对给定长度为n的输入时间序列 X ={x*1, *x*2,⋯, *xn* - 1, xn } , xiRm ,利用底层LSTM-1对学习数据进行向量表示;然后以LSTM-1末尾状态变量作为 LSTM-2 初始化输入,进行时间序列重建;最后将计算的重建序列与原始序列的误差方差代入极大似然估计法(MLE)估计的高斯分布中,最终得到异常点概率,当概率大于训练得到的阈值τ时,则判定其存在异常。

2022/12/4周报_第2张图片 

4、序列重建和异常检测

LSTM-1网络在 每个时刻ti学习输入的向量表示,LSTM-2网络以上一时刻重建的序列(或输入序列)和隐藏层输出作为该网络的输入进行序列重建。

LSTM-1与 LSTM-2联合训练的同时以逆序的方式对序列进行重建,即以 LSTM-1 的末端输出作为 LSTM-2 的初始化输入,这样可以使得序列的大部分信息能用于重建,同时序列以逆序的方式进行重建,即 {xn, xn - 1,⋯, x2, x1}

模型训练目标为极小化如下的损失函数。

 

异常检测分为两步,第一步假设时间序列异常得分随重建误差呈高斯分布,利用MLE算法估计该高斯分布的参数,并计算出时间序列异常的概率;第二步训练异常的判定阈值,并判断序列异常状态。

(1)MLE估计异常得分

假设时刻 ti异常得分 pi随重建误差 ei呈高斯分布,即 p~Ν( μ,Σ ),利用极大似然估计法(MLE)在数据集 Nv1上对参数 μ,Σ 进行估计。

根据参数估计结果,时刻ti正常的概率pi

 令异常得分为

  

(2) 异常判断

通常来说,当异常得分ai大于某个阈值τ时,认为该点出现异常,否则正常。

该参数估计的目标函数设为

2022/12/4周报_第3张图片

 其中,P为准确率,表示预测为正类且预测正确的样本数Tp占预测为正类的样本总数(Tp + Fp)的比

例,且定义“异常”为正类、“正常”为负类;R 为召回率,表示预测为正类且预测正确的样本数 Tp占真实为正类的样本总数(Tp + Fn)的比例。阈值τ是使得F**β算子最大化的τ的取值。

 

5、实验结果

设置LSTM-1隐藏层维度为64、LSTM-2隐藏层维度为 128,batch size 分别为 100、50、210。采用Adam优化器对网络参数进行训练,设Fβ中β = 0.1。

采用3组数据进行仿真预测,分别为ECG测试数据、能源数据、传感器数据。其中ECG、EN、SE 分别代表ECG、能源、传感器数据。本 文还将基于LSTM 的方法与基于recurrent neural network(RNN的方法进行了比较。

2022/12/4周报_第4张图片

 可以看出,三组数据的准确率 P 表现较好,都高于 0.9,说明 LSTM 方法在捕捉时间序列的 特性上存在比较明显的优势。对比RNN算法,本文算法在两种数据集上的评估指标 P, F0.1上均表现更优,说明相比于 RNN,本算法更加有效地检测到序列异常。

传感器数据的异常检测效果显示重构数据基本维持了正常数据的形 态,说明 LSTM 在学习序列长时段信息上具有明显的优势。基于对正常数据的有效重构,模型均能准确检测到测试数据中的明显异常点以及本算法在不同长度的 数据上均能得到较好的效果。

2022/12/4周报_第5张图片

深度学习

1、LSTM

设计一个记忆细胞,具备选择性记忆的功能,可以选择记忆重要信息,过滤掉噪声信息,减轻记忆负担。

LSTM的单元细胞结构,与RNN相比多了一个记忆细胞部分,3个门单元,Ft遗忘门、It更新门、Ot输出门。

2022/12/4周报_第6张图片 

 整个数学推导过程

2022/12/4周报_第7张图片

 

遗忘门门决定保留多少旧记忆,更新门决定保留多少新记忆,输出门把保留后的记忆套进新的知识得到结果用于验证

2、缓解梯度消失

2022/12/4周报_第8张图片

 通过调节Whf,Whi,Whg,可以灵活控制Ct对Ct-1的偏导,当要从n时刻长期记忆某个东西直到m时刻时,该路径上的Ct对Ct-1的偏导接近于多个1连乘,从而大大缓解了梯度消失。

总结

本周是对LSTM的相关知识进行了学习,最近都是对理论方面学的比较多,在实践代码上有所欠缺,接下来应当多加实践,将相关原理复现出来。

你可能感兴趣的:(深度学习,人工智能)