2022最新!基于深度transformer的时间序列异常检测模型

点击上方“python与机器智能”,选择“星标”公众号
重磅干货,第一时间送达

论文:TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data

代码链接:来源:VLDB 2022

文章链接:https://arxiv.org/abs/2201.07284

代码链接:https://github.com/imperial-qore/tranad

在本文中,作者提出了 TranAD,这是一种基于深度transformer的异常检测和诊断模型,它使用基于注意力的序列编码器来快速执行推理,并了解数据中更广泛的时间趋势。TranAD 使用基于焦点分数的自我调节来实现强大的多模态特征提取和对抗训练以获得稳定性。此外,与模型无关的元学习 (MAML) 使得可以使用有限的数据训练模型。对六个公开可用数据集的广泛实证研究表明,TranAD 可以通过数据和高效的训练在检测和诊断性能方面优于最先进的基线方法。具体来说,与基线相比,TranAD 将 F1 分数提高了 17%,将训练时间减少了 99%。

outside_default.png

01

研究背景

多变量时间序列数据中的有效异常检测和诊断对于现代工业应用具有重要意义。然而,构建一个能够快速准确地查明异常观察的系统是一个具有挑战性的问题。这是由于缺乏异常标签、高数据波动性以及现代应用程序中对超低推理时间的需求。尽管很多出现了用于异常检测的深度学习方法,但其中只有少数能够解决所有这些挑战。

02

方法原理

2022最新!基于深度transformer的时间序列异常检测模型_第1张图片

Transformer 是流行的深度学习模型,已用于各种自然语言和视觉处理任务。在这篇论文中,作者使用对Transformer架构的深度重构来完成时间序列数据中的异常检测任务。就像其他编码器-解码器模型一样,在转换器中,输入序列会经历多次基于注意力的转换。图 1 显示了 TranAD 中使用的神经网络的架构。编码器对完整序列进行编码。窗口编码器使用它来创建输入窗口 的编码表示。其中编码器由多头注意力机制和正则机制等组成。然后将编码后的结果传递给两个解码器以创建其重建向量,得到重构输出。(详细结构见原论文)

由于 GAN 模型已被证明在输入是否异常的特征任务中表现良好,因此作者利用了一种高效的 GAN 风格的对抗训练方法。另外作者在训练循环使用与模型无关的元学习 (MAML),这是一种用于快速适应神经网络的小样本学习训练方式 ,有助于TranAD 模型在数据有限的情况下学习输入训练时间序列中的时间趋势。

最后异常分数定位为如下:

d5cc7ffe70dec0d3b4199efbbc2db5d3.png

即重构输出和输入直接的误差,如果是正常样本,那么误差会趋向很小,如果是异常样本,则会得到比较高的重构误差。

03

实验结果

2022最新!基于深度transformer的时间序列异常检测模型_第2张图片

2022最新!基于深度transformer的时间序列异常检测模型_第3张图片

表 2 和表 3 提供了 TranAD 和所有数据集的基线模型的精度、召回率、AUC、F1、AUC* 和 F1* 分数。TranAD 模型的 F1 得分平均为 0.8802,F1* 为 0.8012。当考虑模型训练的完整数据集时,TranAD 优于除 MSL 之外的所有数据集的基线(就 F1 分数而言)。TranAD 还优于除 WADI 数据集之外的所有数据集的基线,其中 20% 的数据集用于训练(F1* 分数)。对于 MSL,GDN 模型的 F1 分数最高 (0.9591),而对于 WADI 数据集,OmniAnomaly 的 F1* 分数最高 (0.1017)。同样,TranAD 在除 MSDS 之外的所有数据集的 AUC 分数方面都优于基线,其中 GDN 具有最高的 AUC (0.9105)。由于 WADI 在序列长度和数据模态方面的大规模,所有模型在 WADI 上的表现都相对较差。具体而言,与最先进的基线模型相比,TranAD 的 F1 分数提高了 17.06%,F1* 分数提高了 14.64%,AUC 提高了 11.69%,AUC* 分数提高了 11.06%

04

总结与展望

TranAD 在完整和有限的训练数据上的 F1 分数分别提高了 17% 和 11%。它还能够正确识别高达 75% 检测到的异常的根本原因,高于最先进的模型。与基线方法相比,它能够以最多降低 99% 的训练时间取得更好的效果。这使得 TranAD 成为需要准确和快速异常预测的现代工业系统的理想选择。

未来工作,作者建议将该方法扩展到其他transformer模型,如双向神经网络,以允许模型泛化到数据中的不同时间趋势。作者还希望探索基于部署设置对每个模型组件应用成本效益分析的方向,以避免昂贵的计算。

干货/资源交流群

2022最新!基于深度transformer的时间序列异常检测模型_第4张图片

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向-城市

(如:小明-浙大-对话系统-北京)

即可申请加入AI算法干货/资源等交流群

你可能感兴趣的:(神经网络,python,机器学习,人工智能,深度学习)