一种硬盘故障预测的非监督对抗学习方法

西安电子科技大学学报,2019
作者信息:
姜少彬(1991—)
国防科技大学硕士研究生
E-mail:[email protected]

注:本篇论文已上传到资源一种硬盘故障预测的非监督对抗学习方法,需要的童鞋可免费下载。

关键词

领域:异常检测,深度学习
方法:非监督对抗学习
场景:硬盘故障检测
网络结构:基于LSTM自编码器与生成式对抗网络相结合
数据集:BackBlaze

一种硬盘故障预测的非监督对抗学习方法_第1张图片

目录

  • 关键词
  • 一、主要方法
  • 二、异常检测模型
    • 1、异常定义
    • 2、问题描述
    • 3、检测方法
  • 三、网络结构
    • 1、整体网络结构
    • 2、编码器1(Enc1)的网络结构
  • 四、模型训练验证及测试
    • 1、模型训练阶段
    • 2、模型验证阶段
    • 3、模型测试阶段
  • 五、实验部分
    • 1、对比实验
    • 2、感受性曲线
    • 3、异常分数分布

一、主要方法

采用非监督对抗学习的好处,由于训练阶段未用到异常样本(即正样本),模型不受样本不均衡的影响,很好的避免了由于训练样本不均衡导致的过拟合问题。

已有研究大都使用5 天以内的短期序列数据进行学习和检测,不能很好的学习到自我监测分析报告数据长期稳定的变化趋势,使得模型不具有鲁棒性。同时结合14年提出的生成式对抗网络。故提出了基于LSTM的自编码器与生成式对抗网络相结合的网络结构,采用对抗训练方法,使模型学习正常样本在样本空间和潜在空间两个层面的分布征,由于样本层的重构误差容易受到噪声干扰,故在潜在向量上检测异常样本,从而提升模型异常检测性能。

由于正常样本数量巨大,即使很低的虚警率也会使检测性能下降。鉴于此,文中在评价模型性能时,主要使用召回率和精确度作为评价指标,辅以均衡分数F1(F1 Score)作为综合评价指标。

经BackBlaze一整年数据集的实验对比,对异常样本的召回率和精确度高于监督/半监督学习方法,可以有效的检测磁盘故障。

二、异常检测模型

1、异常定义

设一个时间节点t,该模型将硬盘在t时刻之前l天的数据(包含t时刻数据)作为一个样本,如果该硬盘在 t 时刻后的 k 天内出现故障,则定义该样本为异常样本,否则为正常样本。

2、问题描述

一种硬盘故障预测的非监督对抗学习方法_第2张图片

3、检测方法

训练阶段在Dtrn上进行,通过最小化损失函数floss使模型可以同时学到正常样本在样本空间和更深层的潜在空间的分布。模型训练完成后在 Dvrf上进行评估,当评估比较成功时,再在 Dtst 上进行测试。验证阶段,基于损失函数 floss定义的异常分数 A(X)对于正常样本是比较小的,而对于在训练阶段未曾出现过的异常样本则会得到较大的A(X),通过一定的最优化准则选定一个阈值Փ。在测试阶段,用同样的方法计算样本的A(X),将A(X) ≥ Փ的样本判为异常,A(X) ˂ Փ的样本判为正常,从而达到异常检测的目的。

三、网络结构

1、整体网络结构

解码器结构与编码器1 对称,编码器2 和鉴别器采用与编码器1 相同的结构,但各自参数在训练过程中是独立学习的。编码器1 和解码器组成一个自编码器Autoencoder,自编码器作为一个广义上的生成器(Generator, G)和鉴别器组成一个生成式对抗网络GAN。
一种硬盘故障预测的非监督对抗学习方法_第3张图片

2、编码器1(Enc1)的网络结构

使用3 层长短期记忆网络提取样本在时序上的特征,后接3 层全连接层(Fully connected layer, FC)提取潜在特征向量,两层全连接层中间使用了BatchNorm 层和ReLU 激活函数优化中间层输出的分布,提高训练效率。
一种硬盘故障预测的非监督对抗学习方法_第4张图片
样本X 通过生成器得到样本的重构X,即X = fG(X),并在第一次编码时生成潜在向量z,z = fEnc1(X), 且z∈Rm,m 是z 的维度;X 经由编码器2 的二次编码生成潜在向量的重构ẑ,ẑ = fEnc2(X)。训练时不断减小两个重构误差,学习样本在样本空间X 和潜在向量空间z 上的分布。由于样本层的重构误差容易受到噪声干扰,影响检测效果,所以在检测阶段不再使用样本层的重构误差作为异常检测依据,而是使用更深层的潜在向量的重构误差作为异常检测的依据,这样可以大大提高模型的抗干扰能力。生成式对抗网络为模型加入对抗学习,通过交替训练可以得到更好的生成器。

四、模型训练验证及测试

1、模型训练阶段

一种硬盘故障预测的非监督对抗学习方法_第5张图片

2、模型验证阶段

一种硬盘故障预测的非监督对抗学习方法_第6张图片

3、模型测试阶段

在这里插入图片描述

五、实验部分

1、对比实验

一种硬盘故障预测的非监督对抗学习方法_第7张图片
一种硬盘故障预测的非监督对抗学习方法_第8张图片
论文提出的LSTM-FC表现出了最优的性能,LSTM-CNN次之,这是因为长短期记忆网络能够很好地捕捉样本长时间跨度的上下文信息,而在提取潜在向量时全连接网络比卷积神经网络能够保留更多的信息,从而更好地学习到样本在高维的分布。

2、感受性曲线

一种硬盘故障预测的非监督对抗学习方法_第9张图片
LSTM-FC 的感受性曲线更饱满,其对应的曲线下面积也就越大。效果更好。

3、异常分数分布

一种硬盘故障预测的非监督对抗学习方法_第10张图片
LSTM-FC 的异常分数分布最清晰,有利于阈值的选取,且在测试阶段性能也会更稳定;GANomaly 的异常分数分布最差,这也是其验证阶段曲线下面积高于 LSTM-CNN 但测试结果却不如后者的原因。

经BackBlaze一整年数据集的实验对比,对异常样本的召回率和精确度高于监督/半监督学习方法,可以有效的检测磁盘故障。

博主研究方向为时间序列的异常检测,欢迎交流。最近正在做磁盘时间序列的异常检测。正在复现华中科 张霁 的 TrAdaBoost论文(采用BackBlaze磁盘数据)。知识浅薄,欢迎指正交流~

你可能感兴趣的:(#,Outlier,Detection,机器学习,机器学习,深度学习,非监督学习,硬盘故障检测,LSTM+生成式对抗网络)