异常检测的深度学习:一项调查(翻译)

 

DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY

目录

 

DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY

0.摘要

1.引言

2.什么是异常现象

3.什么是新颖性

4.动机和挑战:深度异常检测(DAD)技术

5.相关工作

6.我们的贡献

7.组织

8.基于深度学习的异常检测的不同方面

8.1 输入数据的性质

8.2 基于标签的可用性

8.2.1 有监督的深度异常检测

8.2.2 半监督的深度异常检测

8.2.3 无监督深度异常检测

8.3 基于训练目标

8.3.1 深度混合模型(DHM,非端到端:深度特征提取+传统分类)

8.3.2 一类神经网络(OC-NN,端到端)???

8.4异常的类型

8.4.1 点状异常

8.4.2 上下文异常检测

8.4.3 集体或群体异常检测。

8.5 DAD技术的输出

8.5.1 异常得分。

8.5.2 标签。

9 深度异常检测的应用

9.1 入侵检测

9.1.1 基于主机的入侵检测系统(HIDS)。

9.1.2 网络入侵检测系统(NIDS)。

9.2 欺诈检测

9.2.1 银行欺诈

9.2.2 移动蜂窝网络欺诈

9.2.3 保险欺诈

9.2.4 医疗保健欺诈

9.3 恶意软件检测

9.4 医学异常检测

9.5 深度学习在社交网络中的异常检测

9.6 日志异常检测

9.7 物联网(IoT)

9.8 工业异常检测

9.9 时间序列的异常检测

9.9.1 单变量时间序列深度异常检测

9.9.2 多变量时间序列深度异常检测

9.10 视频监控

10.深度异常检测模型

10.1 有监督的深度异常检测

10.2 半监督的深度异常检测

10.3 混合深度异常检测

10.4 用于异常检测的单类神经网络(OC-NN)

10.5 无监督的深度异常检测

10.6 杂项技术

10.6.1 基于迁移学习的异常检测

10.6.2 基于零点学习的异常检测

10.6.3 基于集合的异常检测

10.6.4 基于聚类的异常检测

10.6.5 基于深度强化学习(DRL)的异常检测

10.6.6 统计技术深度异常检测

11 定位异常点的深度神经网络架构

11.1 深度神经网络(DNN)

11.2 空间-时间网络(STN)

11.3 总和-产品网络(SPN)

11.4 Word2vec模型

11.5 生成模型

11.6 卷积神经网络

11.7 序列模型

11.8 自动编码器

12 相对优势和劣势:深度异常检测方法

13 结论


0.摘要

异常检测是一个重要的问题,在不同的研究领域和应用领域都得到了充分的研究。

  1. 本调查的目的有两个方面,首先我们对基于深度学习的异常检测的研究方法进行了结构化和全面的概述。此外,我们回顾了这些方法在不同应用领域中对异常现象的采用情况,并评估其有效性。(方法及其应用的概述)
  2. 我们根据所采用的基本假设和方法,将最先进的深度异常检测研究技术归为不同的类别。在每个类别中,我们概述了基本的异常检测技术及其变体,并提出了关键假设,以区分正常和异常行为。(假设与分类)
  3. 此外,对于每个类别,我们还介绍了其优点和局限性,并讨论了这些技术在实际应用领域的计算复杂性。(优缺点)
  4. 最后,我们概述了研究中的开放性问题以及在采用深度异常检测技术解决现实世界问题时面临的挑战。(问题与挑战)

1.引言

在分析现实世界的数据集时,一个常见的需求是确定哪些实例与其他所有实例不同。这样的实例被称为异常,而异常检测(也被称为离群点检测)的目标是以数据驱动的方式确定所有这样的实例(Chandola等人[2007])。异常可能是由数据中的错误引起的,但有时也表明了一个新的、以前未知的基本过程;Hawkins[1980]将异常值定义为与其他观测值严重偏离的观测值,以引起人们对它是由不同机制产生的怀疑。在更广泛的机器学习领域,最近几年见证了深度神经网络的普及,在各个应用领域取得了前所未有的成果。深度学习是机器学习的一个子集,通过学习将数据表示为神经网络层内的概念嵌套层次,从而达到良好的性能和灵活性。如图1所示,随着数据规模的增加,深度学习的性能优于传统机器学习。近年来,基于深度学习的异常检测算法越来越受欢迎,并被应用于不同的任务,如图2所示;研究表明,深度学习完全超越了传统方法(Javaid等人[2016],Peng和Marculescu[2015])。本调查的目的有两个方面:

  1. 首先我们对深度异常检测(DAD)的研究方法进行了结构化的全面回顾。
  2. 此外,我们还讨论了DAD方法在各个应用领域的采用情况,并评估其有效性。

2.什么是异常现象

在数据挖掘和统计学文献中,异常也被称为异常值、偏差值或离群值(Aggarwal [2013])。如图3所示,N1和N2是由大多数观测值组成的区域,因此被认为是正常的数据实例区域,而区域O3和数据点O1和O2是少数数据点,它们位于离大部分数据点较远的地方,因此被认为是异常点。 由于一些原因,如恶意行为、系统故障、故意欺诈等,导致了异常点的出现。这些异常现象揭示了关于数据的令人振奋的见解,并经常传达关于数据的宝贵信息。因此,异常检测被认为是各种决策系统中的一个重要步骤。

3.什么是新颖性

新颖性检测是识别数据中的新颖(新)或未观察到的模式(Miljkovi´c [2010])。检测到的新颖性不被视为异常数据点;相反,它们被应用于常规数据模型。对于这些以前未见过的数据点,可以使用决策阈值分数来分配一个新奇性分数(Pimentel等人[2014])。显著偏离该决策阈值的点可以被认为是异常点或离群点。例如,在图4中,常规老虎中的(白虎)图像可被视为新奇,而(马、豹、狮子和猎豹)的图像则被视为异常点。用于异常检测的技术经常被用于新奇性检测,反之亦然。

4.动机和挑战:深度异常检测(DAD)技术

  1. 传统算法在检测异常值方面的性能在图像(如医学图像)和序列数据集上是次优的,因为它不能捕获数据中的复杂结构。 对大规模异常检测的需求。
  2. 随着数据量的增加,比如说增加到几十亿字节,传统的方法几乎不可能扩展到如此大规模的数据来寻找异常值。
  3. 深度异常检测(DAD)技术从数据中学习层次分明的判别特征。这种自动特征学习能力消除了由领域专家开发人工特征的需要,因此主张在文本和语音识别等领域采取原始输入数据的方式来端到端解决问题。
  4. 在一些数据领域中,正常和异常(错误)行为之间的界限往往没有精确的定义,而且还在不断地演变。这种缺乏明确的代表性的正常边界给传统的和基于深度学习的算法都带来了挑战。

5.相关工作

尽管深度学习方法在许多机器学习问题上取得了实质性的进展,但用于异常检测的深度学习方法却相对匮乏。

  1. Adewumi和Akinyelu[2017]对基于深度学习的欺诈检测方法进行了全面调查。
  2. Kwon等人[2017]对用于网络入侵检测的深度异常检测(DAD)技术进行了广泛回顾。
  3. Litjens等人[2017]介绍了在医疗领域使用DAD技术的广泛回顾。
  4. Mohammadi等人[2017]介绍了用于物联网(IoT)和大数据异常检测的DAD技术概述。
  5. Ball等人[2017]回顾了传感器网络异常检测。
  6. Kiran等人[2018]介绍了最先进的基于深度学习的视频异常检测方法以及各种类别。

异常检测的深度学习:一项调查(翻译)_第1张图片

虽然在应用DAD技术方面有一些评论,但缺少对异常点检测所采用的深度学习架构的比较分析。例如,大量关于异常检测的研究是使用深度自动编码器进行的,但缺乏对最适合给定数据集和应用领域的各种深度架构的全面调查。我们希望这项调查能够弥补这一缺陷,为希望利用深度学习进行异常检测的研究人员和工程师提供全面的参考。表1显示了我们的调查所涵盖的一系列研究方法和应用领域。

6.我们的贡献

我们遵循(Chandola等人[2007])的调查方法,进行深度异常检测(DAD)。我们的调查对DAD技术的研究和应用进行了详细而有条理的概述。我们将我们的主要贡献总结如下。

  1. 大多数现有的关于DAD技术的调查要么专注于特定的应用领域,要么专注于特定的研究领域(Kiran等人[2018]、Mohammadi等人[2017]、Litjens等人[2017]、Kwon等人[2017]、Adewumi和Akinyelu[2017]、Ball等人[2017])。这篇评论旨在全面概述DAD技术的最先进研究,以及介绍这些技术在现实世界的几个应用。
  2. 近年来,几个新的基于深度学习的异常检测技术已经被开发出来,其计算要求大大降低。本文的目的是调查这些技术,并将它们分类为一个有组织的模式,以便更好地理解。我们又引入了两个子类别混合模型(Erfani等人[2016a])和单类神经网络技术(Chalapathy等人[2018a]),如图5所示,基于训练目标的选择。对于每个类别,我们都讨论了为获得最佳性能而采用的假设和技术。此外,在每个类别中,我们还介绍了挑战、优势和劣势,并对DAD方法的计算复杂性进行了概述。

异常检测的深度学习:一项调查(翻译)_第2张图片

7.组织

本章按照图5中描述的结构组织。在第8节,我们确定了决定问题表述的各个方面,并强调了与异常检测相关的丰富性和复杂性。我们介绍并定义了两种类型的模型:上下文和集体或群体的异常情况。在第9节,我们简要介绍了基于深度学习的异常检测所应用的不同应用领域。在随后的章节中,我们根据基于深度学习的技术所属的研究领域,对其进行了分类。根据所采用的训练目标和标签的可用性,基于深度学习的异常检测技术可以被分为有监督的(第10.1节)、无监督的(第10.5节)、混合的(第10.3节)和单类神经网络(第10.4节)。对于每一类技术,我们还讨论了它们在训练和测试阶段的计算复杂性。在第8.4节中,我们讨论了基于点、上下文和集体(群)深度学习的异常检测技术。我们在第12节中对现有各种技术的局限性和相对性能进行了一些讨论。第13节包含结语。

8.基于深度学习的异常检测的不同方面

本节确定并讨论了基于深度学习的异常检测的不同方面。

8.1 输入数据的性质

深度异常检测方法中深度神经网络架构的选择主要取决于输入数据的性质。

  1. 输入数据可以大致分为顺序数据(例如,语音、文本、音乐、时间序列、蛋白质序列)和非顺序数据(例如,图像、其他数据)。表
  2. 此外,根据特征(或属性)的数量,输入数据可以进一步被分为低维或高维数据。DAD技术一直是在高维原始输入数据中学习复杂的分层特征关系(LeCun等人[2015])。DAD技术中使用的层数由输入数据维度驱动,更深的网络被证明在高维数据上能产生更好的性能。

异常检测的深度学习:一项调查(翻译)_第3张图片

表2说明了输入数据的性质和异常检测中使用的深度模型架构。稍后,在第10节中,我们将深入回顾用于离群检测的各种模型。

8.2 基于标签的可用性

标签表明所选择的数据实例是正常的还是异常值。异常点是罕见的实体,因此要获得它们的标签是很困难的。此外,异常行为可能会随着时间的推移而改变,例如,异常的性质已经发生了很大的变化,在Maroochy水处理厂,它仍然没有被注意到,很长一段时间,导致了1.5亿升未经处理的污水泄漏到当地的水道(Ramotsoela等人[2018])。根据标签的可用程度,深度异常检测(DAD)模型可以大致分为三类。

  1.  有监督的深度异常检测。
  2. 半监督的深度异常检测。
  3. 无监督的深度异常检测。

8.2.1 有监督的深度异常检测

有监督的深度异常检测包括训练一个深度有监督的二类或多类分类器,使用正常和异常数据实例的标签。例如,有监督的DAD模型,被制定为多类分类器,有助于检测稀有品牌、禁止提及的药品名称和欺诈性的医疗保健交易(Chalapathy等人[2016a,b])。尽管有监督的DAD方法的性能有所提高,但由于缺乏标记的训练样本,这些方法不像半监督或无监督的方法那样受欢迎。此外,由于类的不平衡(正类实例的总数远远多于负类数据的总数),用于异常检测器的深度监督分类器的性能是次优的。因此,我们在本调查中不考虑对有监督的DAD方法的审查。

8.2.2 半监督的深度异常检测

正常实例的标签远比异常实例更容易获得,因此,半监督的DAD技术被更广泛地采用,这些技术利用现有的单一(通常是正类)的标签来分离5个异常值。在异常检测中使用深度自动编码器的一种常见方式是在没有异常的数据样本上以半监督的方式训练它们。有了足够的训练样本,正常类的自动编码器会对正常实例产生较低的重建误差,超过异常事件(Wulsin等人[2010],Nadeem等人[2016],Song等人[2017])。我们在第10.2节考虑对这些方法进行详细的回顾。

8.2.3 无监督深度异常检测

无监督深度异常检测技术仅根据数据实例的内在属性检测异常值。无监督的DAD技术被用于自动标注未标注的数据样本,因为标注的数据很难获得(Patterson和Gibson[2017])。无监督DAD模型的变体(Tuor等人[2017])被证明优于传统方法,如主成分分析(PCA)(Wold等人[1987])、支持向量机(SVM)Cortes和Vapnik[1995]和隔离森林(Liu等人[2008])技术在健康和网络安全等应用领域。自动编码器是所有无监督DAD模型的核心。这些模型假设正常实例比异常数据实例的发生率高,这将导致高的假阳性率。此外,无监督学习算法,如受限玻尔兹曼机(RBM)(Sutskever等人[2009])、深度玻尔兹曼机(DBM)、深度信念网络(DBN)(Salakhutdinov和Larochelle[2010])、广义去噪自动编码器(Vincent等人[2008])。[2008]),循环神经网络(RNN)(Rodriguez等人[1999])用于检测异常值的长短期记忆网络(Lample等人[2016])将在第11.7节详细讨论。

8.3 基于训练目标

在这项调查中,我们介绍了两类新的基于训练目标的深度异常检测(DAD)技术,采用了1)深度混合模型(DHM)。2)单类神经网络(OC-NN)。

8.3.1 深度混合模型(DHM,非端到端:深度特征提取+传统分类)

用于异常检测的深度混合模型使用主要是自动编码器的深度神经网络作为特征提取器,在自动编码器的隐藏表征内学习的特征被输入到传统的异常检测算法。图7说明了用于异常检测的深度混合模型架构。

  1. 如一类SVM(OC-SVM)来检测异常值(Andrews等人[2016a])。
  2. 在转移学习成功地从大数据集上预训练的模型中获得丰富的代表性特征之后,混合模型也采用了这些预训练的转移学习模型作为特征提取器,取得了巨大的成功(Pan等人[2010])。
  3. Ergen等人[2017]提出了混合模型的一个变体,该模型考虑了与OC-SVM(或SVDD)目标一起联合训练特征提取器,以最大限度地提高检测性能。

这些混合方法的一个明显的缺点是缺乏为异常检测定制的可训练目标,因此这些模型不能提取丰富的差异特征来检测异常值。为了克服这一局限性,引入了为异常检测定制的目标,如深度单类分类(Ruff等人[2018a])和单类神经网络(Chalapathy等人[2018a])。

8.3.2 一类神经网络(OC-NN,端到端)???

一类神经网络(OC-NN)Chalapathy等人[2018a]的方法受到基于核的一类分类的启发,它将深度网络提取逐步丰富的数据表示的能力与围绕正常数据创建紧密包络的一类目标相结合。OC-NN方法在以下关键原因上有了新的突破:隐藏层中的数据表示是由OC-NN目标驱动的,因此是为异常检测定制的。这与其他方法不同,其他方法使用的是混合方法,即使用自动编码器学习深度特征,然后将这些特征送入一个单独的异常检测方法,如单类SVM(OC-SVM)。关于一类神经网络的训练和评估的细节在第10.4节讨论。一类神经网络架构的另一个变体深支持向量数据描述(Deep SVDD)(Ruff等人[2018a])通过紧密映射正常数据实例到球体中心来训练深层神经网络以提取共同的变化因素,被证明在MNIST(LeCun等人[2010])和CIFAR-10(Krizhevsky和Hinton[2009])数据集中产生性能改进。

8.4异常的类型

异常现象大致可分为三种类型:点状异常、上下文异常和集体异常。深度异常检测(DAD)方法已被证明可以非常成功地检测出所有三种类型的异常。

异常检测的深度学习:一项调查(翻译)_第4张图片

8.4.1 点状异常

文献中的大部分工作都集中在点状异常上。点异常通常代表随机发生的不规则或偏差,可能没有特别的解释。例如,在图10中,在摩纳哥餐厅记录的一笔高消费的信用卡交易似乎是一个点异常,因为它明显偏离了其他的交易。第9节回顾了考虑到点状异常检测的几个现实世界的应用。

8.4.2 上下文异常检测

上下文异常也被称为条件性异常,是指在某些特定背景下可以被认为是异常的数据实例(Song等人[2007])。上下文异常是通过考虑上下文和行为特征来识别的。上下文特征,通常使用的是时间和空间。而行为特征可能是花钱的模式、系统日志事件的发生或任何用于描述正常行为的特征。图9a说明了考虑温度数据的上下文异常的例子,该数据由6月前的急剧下降表示;该值并不表明在这段时间发现的正常值。图9b说明了使用基于深度长短时记忆(LSTM)(Hochreiter和Schmidhuber [1997])的模型来识别特定背景下的异常系统日志事件(Du等人[2017])(例如,事件53被检测为脱离背景)。

8.4.3 集体或群体异常检测。

单个数据点的异常集合被称为集体或群体异常,其中每个单独的点在孤立的情况下似乎是正常的数据实例,而在一个群体中观察到的是不寻常的特征。例如,考虑一个欺诈性信用卡交易的例子,在图10所示的日志数据中,如果发生了 "MISC "的单一交易,它可能不会显得那么异常。下面这组价值75美元的交易似乎是一个集体或群体异常的候选者。群体异常检测(GAD)强调不规则的群体分布(例如,使用自动编码器模型的变体检测图像像素的不规则混合物(Chalapathy等人[2018b],Bontemps等人[2016],Araya等人[2016],Zhuang等人[2017])。

8.5 DAD技术的输出

异常检测方法的一个关键方面是检测异常的方式。一般来说,异常检测方法产生的输出是异常得分或二进制标签。

8.5.1 异常得分。

异常得分描述了每个数据点的异常程度。数据实例可以根据异常得分进行排序,并由主题专家选择一个特定领域的阈值(通常称为决策得分)来识别异常情况。一般来说,决策分数比二进制标签揭示了更多信息。例如,在Deep SVDD方法中,决策分数是衡量数据点与球体中心的距离,离中心较远的数据点被认为是异常的(Ruff等人[2018b])。

8.5.2 标签。

一些技术可以不分配分数,而是给每个数据实例分配一个正常或异常的类别标签。使用自动编码器的无监督异常检测技术测量残差向量的大小(即重建误差)以获得异常分数,后来,重建误差由领域专家进行排序或阈值,以标记数据实例。

9 深度异常检测的应用

在本节中,我们讨论深度异常检测的几个应用。对于每个应用领域,我们讨论以下四个方面: -异常的概念; -数据的性质; -与检测异常有关的挑战; -现有的深度异常检测技术。

9.1 入侵检测

入侵检测系统(IDS)是指识别计算机相关系统中的恶意活动(Phoha [2002])。IDS可以部署在单个计算机上,称为主机入侵检测(HIDS),也可以部署在大型网络中的网络入侵检测(NIDS)。用于入侵检测的深度异常检测技术的分类见图11。IDS根据检测方法被分为基于签名的和基于异常的。使用基于签名的IDS对于检测新的攻击并不有效,因为没有特定的签名模式,因此基于异常的检测方法更受欢迎。在本调查中,我们重点讨论入侵检测中采用的深度异常检测(DAD)方法和架构。

9.1.1 基于主机的入侵检测系统(HIDS)。

这类系统是安装的软件程序,通过监听主机内发生的系统调用或事件,监测单个主机或计算机的恶意活动或政策违反情况(Vigna和Kruegel [2005])。系统调用日志可以由程序产生,也可以由用户互动产生,导致日志如图9b所示。恶意的互动导致这些系统调用以不同的顺序执行。HIDS也可以监测系统的状态,其存储的信息,在随机存取存储器(RAM),在文件系统,日志文件或其他地方的有效序列。应用于HIDS的深度异常检测(DAD)技术需要处理数据的可变长度和顺序性。DAD技术必须对序列数据进行建模或计算序列之间的相似性。表3显示了一些用于HIDS的成功的DAD技术。

9.1.2 网络入侵检测系统(NIDS)。

NIDS系统通过检查每一个网络数据包来监控整个网络中的可疑流量。由于实时流行为,数据的性质与大数据同义,具有高容量、高速度、高种类。网络数据也有一个与之相关的时间方面。表4显示了一些用于NIDS的成功的DAD技术。该调查还在表5中列出了用于评估DAD入侵检测方法的数据集。DAD技术在入侵检测中面临的一个挑战是,随着入侵者调整他们的网络攻击以逃避现有的入侵检测解决方案,异常现象的性质不断变化。

9.2 欺诈检测

欺诈是一种故意的欺骗行为,以获取有价值的资源(Abdallah等人[2016])。普华永道(PwC)2018年全球经济犯罪调查(Lavion [2018], Zhao [2013])发现,在他们调查的7200家公司中,有一半经历过某种性质的欺诈。欺诈检测指的是检测各行业的非法活动,在12中说明。电信、保险(健康、汽车等)索赔、银行(报税、信用卡交易等)中的欺诈是政府和私营企业的重大问题。检测和预防欺诈不是一项简单的任务,因为欺诈是一种适应性犯罪。许多传统的机器学习算法已经成功应用于欺诈检测(Sorournejad等人[2016])。与检测欺诈相关的挑战是,它需要实时检测和预防。本节重点讨论用于欺诈检测的深度异常检测(DAD)技术。

9.2.1 银行欺诈

信用卡已成为网上购物商品和服务的一种流行支付方式。信用卡欺诈涉及盗取支付卡的详细信息,并将其作为交易中的欺诈性资金来源。在过去几年中,已经提出了许多信用卡欺诈检测技术(Zhou等人[2018],Suganya和Kamalraj[2015])。我们将简要地回顾一些DAD技术,如表6所示。信用卡欺诈检测中的挑战是欺诈行为没有一致的模式。信用卡欺诈检测中的典型方法是为每个用户维护一个使用档案,并监测用户档案以检测任何偏差。由于有数十亿的信用卡用户,这种用户档案方法技术的可扩展性不强。由于DAD技术固有的可扩展性,该技术在信用卡欺诈检测中得到了广泛的应用。

9.2.2 移动蜂窝网络欺诈

近来,移动蜂窝网络已经见证了快速的部署和发展,支持数十亿的用户和大量不同的移动设备。由于这种广泛的采用和较低的移动蜂窝网络服务费,移动蜂窝网络现在面临着一些欺诈行为,如以窃取客户私人信息为目标的语音诈骗,以及以敲诈客户钱财为目的的信息传递相关诈骗。由于移动蜂窝网络的数量和速度,检测这种欺诈行为是最重要的,而且不是一件容易的事。具有静态特征工程技术的传统机器学习方法无法适应不断变化的欺诈行为的性质。表7列出了用于移动蜂窝网络欺诈检测的DAD技术。

9.2.3 保险欺诈

一些传统的机器学习方法已被成功应用于检测保险索赔中的欺诈行为(Joudaki等人[2015],Roy和George[2017])。欺诈检测的传统方法是基于作为欺诈指标的特征。这些传统方法所面临的挑战是,需要人工的专业知识来提取强大的特征。保险欺诈检测的另一个挑战是,欺诈的发生率远远低于索赔的总数,而且每个欺诈都有其独特的方式。为了克服这些限制,我们提出了几种DAD技术,如表8所示。

9.2.4 医疗保健欺诈

医疗保健是人们生活中不可或缺的组成部分,浪费、滥用和欺诈每年都会使医疗保健的成本增加数百亿美元。医疗保险索赔欺诈是导致医疗成本增加的一个重要因素,但其影响可以通过欺诈检测来减轻。一些机器学习模型已经被有效地用于医疗保险欺诈(Bauder和Khoshgoftaar [2017])。表9介绍了用于医疗保健欺诈识别的DAD方法概述。

9.3 恶意软件检测

恶意软件,是恶意软件的简称。为了保护合法用户免受恶意软件的侵害,人们提出了基于机器学习的高效恶意软件检测方法(Ye等人[2017])。在经典的机器学习方法中,恶意软件检测的过程通常分为两个阶段:特征提取和分类/聚类。传统恶意软件检测方法的性能关键取决于提取的特征和分类/聚类的方法。恶意软件检测问题的相关挑战是数据的巨大规模,例如,考虑到数据的字节,一个特定的序列分类问题可能是两百万个时间步骤的数量。此外,恶意软件具有很强的适应性,攻击者会使用高级技术来隐藏恶意行为。表10中显示了一些有效解决这些挑战并检测恶意软件的DAD技术。

9.4 医学异常检测

已经进行了一些研究,以了解深度学习在医学和生物信息学中的理论和实际应用(Min等人[2017],Cao等人[2018a],Zhao等人[2016],Khan和Yairi[2018])。在医学图像分析、临床脑电图(EEG)记录等领域寻找罕见事件(异常),能够对各种医疗状况进行诊断并提供预防治疗。如表11所示,基于深度学习的架构在检测医疗异常方面取得了巨大成功。医学领域中大量的不平衡数据给检测异常值带来了巨大的挑战。此外,深度学习技术长期以来一直被认为是黑箱技术。尽管深度学习模型产生了出色的性能,但这些模型缺乏可解释性。最近,具有良好解释能力的模型被提出,并显示出产生了最先进的性能(Gugulothu等人,Amarasinghe等人[2018b],Choi[2018])。

9.5 深度学习在社交网络中的异常检测

近来,在线社交网络已经成为日常生活的一部分和组成部分。社交网络中的异常现象是社交网络中个人的不规则行为模式,这些人可以被认定为垃圾邮件发送者、性掠夺者、在线欺诈者、假用户或谣言制造者。检测这些不正常的模式是最重要的,因为如果不被发现,这些人的行为会产生严重的社会影响。对传统的异常检测技术的调查及其在社交网络中检测异常的挑战是文献中一个很好的研究课题(Liu和Chawla[2017],Savage等人[2014],Anand等人[2017],Yu等人[2016],Cao等人[2018b],于等人[2016])。数据的异质性和动态性给DAD技术带来了重大挑战。尽管有这些挑战,表12中说明的几种DAD技术的表现优于现有技术方法。

9.6 日志异常检测

日志文件中的异常检测旨在寻找文本,这些文本可以表明系统故障的原因和性质。最常见的是,根据过去的经验构建一个特定领域的正则表达式,通过模式匹配找到新的故障。这种方法的局限性在于,较新的故障信息很容易不被发现(Memon [2008])。日志数据的非结构化以及格式和语义的多样性给日志异常检测带来了巨大挑战。异常检测技术应该适应同时产生的日志数据集并实时检测异常值。继深度神经网络在实时文本分析中取得成功后,表13中说明的几种DAD技术将日志数据建模为自然语言序列,在检测异常值方面表现得非常有效。

9.7 物联网(IoT)

大数据异常检测 物联网被认为是一个与软软件、服务器、传感器等相互连接的设备网络。在物联网领域,由气象站、射频识别(RFID)标签、IT基础设施组件和其他一些传感器产生的数据大多是时间序列的连续数据。在这些物联网网络中的异常检测可以识别这些大规模的互联设备的欺诈、故障行为。与异常值检测相关的挑战是,异构设备是相互连接的,这使得系统更加复杂。Mohammadi等人[2018]对使用深度学习(DL)来促进物联网领域的分析和学习进行了全面的概述。表14说明了物联网设备采用的DAD技术。

9.8 工业异常检测

由风力涡轮机、发电厂、高温能源系统、存储设备和旋转机械部件组成的工业系统每天都面临着巨大的压力。这类系统的损坏不仅会造成经济损失,也会造成声誉的损失,因此,早期检测和修复这些系统是最重要的。一些机器学习技术已被用于检测工业系统中的此类损坏(Ramotsoela等人[2018],Mart´ı等人[2015])。发表的几篇利用深度学习模型检测早期工业损害的论文显示出巨大的前景(Atha和Jahanshahi [2018], de Deijn [2018], Wang等人 [2018c])。对设备造成的损坏是罕见的事件,因此检测此类事件可以被表述为离群点检测问题。在这个领域,与离群点检测相关的挑战既是数量,也是数据的动态性质,因为故障是由各种因素引起的。表15显示了不同行业中采用的一些DAD技术。

9.9 时间序列的异常检测

在持续时间内连续记录的数据被称为时间序列。时间序列数据可以大致分为单变量和多变量的时间序列。在单变量时间序列的情况下,只有单个变量(或特征)随时间变化。例如,从房间里的温度传感器收集到的每一秒钟的数据就是单变量时间序列数据。多变量时间序列包括几个随时间变化的变量(或特征)。加速计每秒钟为每个轴(x;y;z)产生三维数据,是多变量时间序列数据的一个完美例子。在文献中,单变量和多变量时间序列的异常类型被分为以下几类。(1) 点状异常。8.4.1 (2) 情境异常 8.4.2 (3) 集体异常 8.4.3. 近来,许多深度学习模型被提出来用于检测单变量和多变量时间序列数据中的异常情况,分别如表16和表17所示。使用深度学习模型数据检测时间序列中的异常情况的一些挑战是。 缺少可以定义的异常现象发生的模式。 输入数据中的噪声严重影响了算法的性能。 随着时间序列数据的长度增加,计算的复杂性也会增加。 时间序列数据通常是非平稳的、非线性的和动态演变的。因此,DAD模型应该能够实时检测异常情况。

9.9.1 单变量时间序列深度异常检测

深度学习领域的进步为提取丰富的层次特征提供了机会,可以大大改善单变量时间序列数据中的异常值检测。用于对单变量和多变量时间序列数据的异常检测算法进行基准测试的行业标准工具和数据集(包括基于深度学习的和非深度学习的)清单已在Github资源库2中列出并维护。表16说明了在单变量时间序列数据中进行异常检测时采用的各种深度架构。

9.9.2 多变量时间序列深度异常检测

多变量时间序列数据的异常检测是一项具有挑战性的任务。有效的多变量异常检测能够进行故障隔离诊断。基于RNN和LSTM的方法3在检测多变量时间序列数据集中的可解释性异常方面表现良好。Buda等人[2018]提出了DeepAD,一个基于深度学习的多变量时间序列异常检测通用框架。可以解释的是,使用基于深度关注的模型设计的异常检测系统能够有效地解释检测到的异常现象(Yuan等人[2018b],Guo和Lin[2018])。表17说明了在多变量时间序列数据内进行异常检测所采用的各种深度架构。

9.10 视频监控

视频监控也被俗称为闭路电视(CCTV),涉及监控指定的利益区域,以确保安全。在视频监控应用中,有大量的无标签数据,这对有监督的机器学习和深度学习方法是一个重大挑战。因此,由于缺乏标记数据的可用性,视频监控应用被建模为异常检测问题。一些工作研究了用于视频异常检测的最先进的深度模型,并根据模型的类型和检测标准对其进行了分类(Kiran等人[2018],Chong和Tay[2015])。Boghossian和Black[2005]详细讨论了强大的24/7视频监控系统的挑战。在现实生活的视频监控中,缺乏对异常的明确定义是一个重要的问题,它也阻碍了DAD方法的性能。表19说明了视频监控中使用的DAD技术。

10.深度异常检测模型

在本节中,我们讨论了根据标签的可用性和训练目标分类的各种DAD模型。对于每个模型类型领域,我们讨论以下四个方面:-假设;-模型架构类型;-计算复杂性;-优点和缺点;

10.1 有监督的深度异常检测

有监督的异常检测技术与无监督的异常检测技术相比在性能上更优越,因为这些技术使用标记的样本(G¨ornitz等人[2013])。有监督的异常检测从一组有注释的数据实例中学习分离边界(训练),然后,用学到的模型将测试实例分为正常或异常类别(测试)。

  • 假设。深度监督学习方法依赖于分离数据类别,而无监督技术则侧重于解释和理解数据的特征。基于多类分类的异常检测技术假定训练数据包含多个正常类的标记实例(Shilton等人[2013],Jumutc和Suykens[2014],Kim等人[2015],Erfani等人[2017])。多类异常检测技术学习一个分类器来区分异常类和其他类。一般来说,基于监督的深度学习的异常检测分类方案有两个子网络,一个是特征提取网络,另一个是分类器网络。深度模型需要大量的训练样本(数以千计或数以百万计)来学习特征表征,以有效区分各种类别实例。由于缺乏干净的数据标签,有监督的深度异常检测技术并不像半监督和无监督的方法那么受欢迎。
  • 计算复杂度。基于深度监督的异常检测方法的计算复杂性取决于输入数据的维度和使用反向传播算法训练的隐藏层的数量。高维数据往往有更多的隐藏层,以确保对输入特征进行意义完整的分层学习。计算复杂度也随着隐藏层数量的增加而线性增加,需要更大的模型训练和更新时间。
  • 优势和劣势。有监督的DAD技术的优点如下。
  1. 有监督的DAD方法比半监督和无监督的模型更准确
  2. 基于分类技术的测试阶段是快速的,因为每个测试实例都需要与预先计算的模型进行比较。
  • 监督式DAD技术的缺点如下。
  1. 多类监督技术需要各种正常类和异常实例的准确标签,而这往往是不可用的。
  2. 如果特征空间是高度复杂和非线性的,深度监督技术就不能将正常数据和异常数据分开。

10.2 半监督的深度异常检测

半监督或(单类分类)DAD技术假定所有训练实例只有一个类标签。Kiran等人[2018]和Min等人[2018]对基于深度学习的半监督的异常检测技术进行了回顾。DAD技术在正常实例周围学习一个判别性的边界。不属于多数类的测试实例被标记为异常(Perera和Patel[2018],Blanchard等人[2010])。表20中说明了各种半监督的DAD模型架构。

异常检测的深度学习:一项调查(翻译)_第5张图片

假设。半监督式DAD方法建议依靠以下假设之一来对数据实例进行评分,将其作为异常情况。

  1. 接近性和连续性。在输入空间和学习特征空间中相互接近的点更有可能共享相同的标签。
  2. 健壮的特征是在深度神经网络层的隐藏层中学习的,并保留了区分正常数据点和异常数据点的鉴别属性。

计算复杂度。基于半监督DAD方法的计算复杂性与监督DAD技术相似,主要取决于输入数据的维度和用于代表特征学习的隐藏层的数量。

优势和劣势。半监督式深度异常检测技术的优点如下。

  1. 在半监督学习模式下训练的生成对抗网络(GANs)已经显示出巨大的前景,即使只有很少的标记数据。
  2. 使用标记的数据(通常是一类),可以产生比无监督技术更好的性能。

Lu[2009]提出的半监督技术的基本缺点甚至在深度学习中也适用。此外,在隐藏层中提取的分层特征可能无法代表较少的异常实例,因此容易出现过度拟合问题。

10.3 混合深度异常检测

异常检测的深度学习:一项调查(翻译)_第6张图片

深度学习模型被广泛用作特征提取器,以学习稳健的特征(Andrews等人[2016a])。在深度混合模型中,在深度模型内学习的代表性特征被输入到传统的算法中,如单类径向基函数(RBF)、支持向量机(SVM)分类器。混合模型采用两步学习,并被证明能产生最先进的结果(Erfani等人[2016a,b],Wu等人[2015b])。异常检测中使用的深度混合架构见表21。

假设。为异常检测提出的深度混合模型依赖于以下假设之一来检测异常值。

  1. 在深度神经网络的隐藏层中提取强壮的特征,帮助分离不相关的特征,这些特征可以掩盖异常现象的存在。
  2. 在复杂的高维空间上建立一个强大的异常检测模型需要特征提取器和异常检测器。表21中说明了各种异常检测器的使用情况

计算复杂性:混合模型的计算复杂性包括深度架构和传统算法的复杂性。此外,深层网络架构和参数的非琐碎选择的固有问题,涉及到在一个相当大的空间内搜索优化的参数,这引入了在混合模型内使用深层的计算复杂性。此外,考虑到经典的算法,如线性SVM,其预测复杂度为O(d),d为输入维数。对于大多数核,包括多项式和RBF,复杂度是O(nd),其中n是支持向量的数量,尽管对于具有RBF核的SVM来说,近似的O(d2)被考虑。

优势和劣势 混合DAD技术的优势如下。

  1. 特征提取器大大减少了 "维度诅咒",特别是在高维领域。
  2. 由于线性或非线性核模型在降低的输入维度上运行,混合模型更具有可扩展性和计算效率。

混合DAD技术的显著缺点是。

  1. 混合方法是次优的,因为它无法影响特征提取器隐藏层内的表征学习,因为采用了通用损失函数,而不是为异常检测定制的目标。
  2. 如果单独的层是(Saxe等人[2011]),更深的混合模型往往表现得更好,这引入了计算支出。

10.4 用于异常检测的单类神经网络(OC-NN)

单类神经网络(OC-NN)结合了深度网络的能力,以提取逐步丰富的数据表征,以及单类目标,如超平面(Chalapathy等人[2018a])或超球(Ruff等人[2018a]),将所有正常数据点与异常值分开。OC-NN方法的新颖之处在于以下关键原因:通过优化为异常检测定制的目标函数来学习隐藏层中的数据表示,如图所示(Chalapathy等人[2018a],Ruff等人[2018a])的实验结果表明,OC-NN可以在复杂数据集中实现与现有最先进方法相当或更好的性能,同时与现有方法相比具有合理的训练和测试时间。

假设。为异常检测提出的OC-NN模型依靠以下假设来检测异常值。

  1.  OC-NN模型在深度神经网络的隐藏层中提取数据分布中的共同变化因素。
  2. 进行组合表征学习,并为测试数据实例产生一个异常点分数。
  3. 异常样本不包含共同的变异因素,因此隐藏层无法捕捉到异常值的表征。

计算复杂度。与混合模型相比,OC-NN模型的计算复杂性只包括所选择的深度网络的复杂性(Saxe等人[2011])。OC-NN模型不需要为预测而存储数据,因此具有非常低的内存复杂性。然而,很明显,OC-NN的训练时间与输入维度成正比。优势和劣势。OC-NN的优点有以下几点。

  1. OC-NN模型联合训练深度神经网络,同时优化输出空间中的数据封闭超球或超平面。
  2. OC-NN提出了一种交替的最小化算法来学习OC-NN模型的参数。我们观察到,OC-NN目标的子问题等同于解决一个定义良好的量化选择问题。

OC-NN用于异常检测的明显缺点是。

  1. 对于高维的输入数据,训练时间和模型更新时间可能会更长。
  2. 考虑到输入空间的变化,模型更新也将需要更长的时间。

10.5 无监督的深度异常检测

无监督的DAD是基础机器学习研究和工业应用的一个重要研究领域。一些解决无监督异常检测挑战的深度学习框架被提出,并被证明产生了最先进的性能,如表22所示。自动编码器是用于异常检测的基本无监督深度架构(Baldi [2012])。

异常检测的深度学习:一项调查(翻译)_第7张图片

假设。为异常检测提出的深度无监督模型依赖于以下假设之一来检测异常值。

  1. 原始或潜在特征空间中的 "正常 "区域可以与原始或潜在特征空间中的 "异常 "区域区分开来。
  2. 与数据集的其余部分相比,大多数数据实例是正常的。
  3. 无监督的异常检测算法根据数据集的内在属性(如距离或密度)产生数据实例的离群分数。深度神经网络的隐藏层旨在捕捉数据集中的这些内在属性(Goldstein和Uchida[2016])。

计算的复杂性。自动编码器是离群检测中最常用的架构,具有二次成本,优化问题是非凸的,与其他神经网络架构类似。模型的计算复杂性取决于操作的数量、网络参数和隐藏层。然而,训练自动编码器的计算复杂度要比主成分分析(PCA)等传统方法高得多,因为PCA是基于矩阵分解的(Meng等[2018], Parchami等[2017])。

优势和劣势。无监督的深度异常检测技术的优势如下。

  1. 学习固有的数据特征,将正常的数据点与异常的数据点分开。这种技术可以识别数据中的共性,有利于异常点的检测。
  2. 寻找异常点的技术具有成本效益,因为它不需要注释的数据来训练算法。

无监督的深度异常检测技术的显著缺点是。

  1. 在复杂的高维空间中学习数据的共性往往是一种挑战。
  2. 在使用自动编码器时,选择正确的压缩程度,即降维往往是一个需要调整的超参数,以获得最佳结果。
  3.  无监督技术技术对噪音和数据损坏非常敏感,而且往往不如有监督或半监督技术准确

10.6 杂项技术

本节探讨了各种DAD技术,这些技术被证明是有效和有前途的,我们讨论了这些技术背后的关键思想和它们的适用领域。

10.6.1 基于迁移学习的异常检测

长期以来,深度学习一直被批评为需要有足够的数据才能产生好的结果。Litjens等人[2017]和Pan等人[2010]都提出了对深度迁移学习方法的回顾,并说明了其对学习良好特征表示的意义。转移学习是机器学习中解决训练数据不足这一基本问题的重要工具。它的目的是通过放宽训练数据和未来数据必须在同一特征空间并具有相同分布的假设,将知识从源域转移到目标域。安德鲁斯等人[2016b]、Vercruyssen等人[2017]、Li等人[2012]、Almajai等人[2012]、Kumar和Vaidehi[2017]、Liang等人[2018])对深度转移表示学习进行了探索,显示出产生了非常有希望的结果。使用转移学习进行异常检测的开放性研究问题是,转移能力的程度,即定义特征如何很好地转移知识并提高从一个任务到另一个任务的分类性能。

10.6.2 基于零点学习的异常检测

零点学习(ZSL)旨在识别训练集中从未见过的物体(Romera-Paredes and Torr [2015])。ZSL通过两个阶段实现这一目标。首先,在自然语言描述或属性(通常称为元数据)中捕获关于物体的知识;其次,这些知识被用来在一组新的类别中对实例进行分类。这种设置在现实世界中很重要,因为人们在训练时可能无法获得所有可能的类别的图像。与这种方法相关的主要挑战是如何获得关于数据实例的元数据。然而,在异常和新奇检测中使用ZSL的几种方法被证明产生了最先进的结果(Mishra等人[2017],Socher等人[2013],Xian等人[2017],刘等人[2017],Rivero等人[2017])

10.6.3 基于集合的异常检测

深度神经网络的一个显著问题是,它们对输入数据中的噪声很敏感,通常需要大量的训练数据才能稳健地执行(Kim等人[2016])。为了在嘈杂的数据中也能实现鲁棒性,一个随机改变自动编码器的连接结构的想法被证明可以获得明显更好的性能。Chen等人[2017]对由各种随机连接的自动编码器组成的自动编码器集合进行了实验,在几个基准数据集上取得了很好的结果。集合方法仍然是一个活跃的研究领域,已被证明可以产生更好的多样性,从而避免过拟合问题,同时减少训练时间。

10.6.4 基于聚类的异常检测

文献中提出了几种基于聚类的异常检测算法(Ester等人[1996])。聚类涉及到根据提取的特征检测新的异常情况,将类似的模式分组。时间和空间的复杂性随着要聚类的类的数量线性增长(Sreekanth等人[2010]),这使得基于聚类的异常检测在实时实际应用中难以实现。输入数据的维度被降低,在深度神经网络的隐藏层中提取特征,这确保了复杂和高维数据集的可扩展性。深度学习支持的聚类方法异常检测利用例如word2vec(Mikolov等人[2013])模型来获得正常数据和异常数据的语义展示,以形成聚类并检测异常值(Yuan等人[2017])。有几项工作依靠混合模型的变体与自动编码器一起获得有代表性的特征进行聚类,以寻找异常点。

10.6.5 基于深度强化学习(DRL)的异常检测

深度强化学习(DRL)方法由于其在高维数据空间中学习复杂行为的能力而引起了极大的兴趣。de La Bourdonnaye等人[2017]、黄成强[2016]提出了利用深度强化学习检测异常的努力。基于DRL的异常检测器不考虑任何关于异常概念的假设,检测器通过积累的奖励信号不断增强其知识来识别新的异常。基于DRL的异常检测是一个非常新颖的概念,需要进一步调查和确定研究差距及其应用。

10.6.6 统计技术深度异常检测

希尔伯特变换是一种统计信号处理技术,它得出了实值信号的分析表示。(Kanarachos等人[2015])利用这一特性对与健康有关的时间序列数据集的异常情况进行实时检测,并被证明是一种非常有前途的技术。该算法将小波分析、神经网络和希尔伯特变换的能力以顺序的方式结合起来,以检测实时的异常情况。统计技术DAD技术的主题需要进一步调查,以充分了解它们在异常情况检测方面的潜力和适用性。

11 定位异常点的深度神经网络架构

11.1 深度神经网络(DNN)

"深度神经网络 "中的 "深度 "是指提取数据特征的层数(Schmidhuber [2015], Bengio等人[2009])。深度架构克服了传统机器学习方法的可扩展性、对数据中新变化的概括性(LeCun等人[2015])以及对人工特征工程的需求的限制。深度信念网络(DBN)是一类深度神经网络,它包括多层图形模型,被称为受限玻尔兹曼机(RBM)。使用DBNs进行异常检测的假设是,RBMs被用作具有反向传播算法的定向编码器-解码器网络(Werbos [1990])。DBNs不能捕捉到异常样本的特征变化,导致高重构误差。DBNs被证明可以有效地扩展到大数据并提高可解释性(Wulsin等人[2010])。

11.2 空间-时间网络(STN)

长期以来,研究人员一直在探索学习空间和时间关系特征的技术(Zhang等人[2018f])。深度学习架构被利用来在学习空间方面(使用CNN)和时间特征(使用LSTM)方面单独表现良好。空间时间网络(STNs)由深度神经架构组成,结合CNN和LSTMs来提取空间时间特征。时间特征(通过LSTM对近似时间点之间的相关性进行建模)、空间特征(通过局部CNN对局部空间相关性进行建模)在检测异常值方面被证明是有效的(Lee等人[2018],SZEK´ER[2014],Nie等人[2018],Dereszynski和Dietterich[2011])。

11.3 总和-产品网络(SPN)

总和-产品网络(SPN)是以变量为叶子的有向无环图,内部节点、加权边构成总和与产品。SPNs被认为是混合模型的组合,它在许多层上都有快速准确的概率推理(Poon和Domingos[2011],Peharz等人[2018])。SPNs的主要优点是,与图形模型不同,SPNs在高树宽模型上更具有可追溯性,而不需要近似推理。此外,SPNs被证明能够以令人信服的方式捕捉其输入的不确定性,产生稳健的异常检测(Peharz等人[2018])。SPNs在众多数据集上被证明是令人印象深刻的结果,而在离群点检测方面还有很多需要进一步探索的地方。

11.4 Word2vec模型

Word2vec是一组深度神经网络模型,用于产生单词嵌入(Mikolov等人[2013])。这些模型能够捕捉到数据实例中的顺序关系,如句子、时间序列数据。获得词嵌入特征作为输入被证明可以提高几个深度学习架构的性能(Rezaeinia等人[2017],Naili等人[2017],Altszyler等人[2016])。利用word2vec嵌入的异常检测模型被证明可以显著提高性能(Schnabel等人[2015],Bertero等人[2017],Bakarov等人[2018],Bamler和Mandt[2017])。

11.5 生成模型

生成模型旨在学习精确的数据分布,以便生成具有一定变化的新数据点。两个最常见和最有效的生成方法是变异自动编码器(VAE)(Kingma和Welling[2013])和生成对抗网络(GAN)(Goodfellow等[2014a,b])。GAN架构的一个变种被称为对抗性自动编码器(AAE)(Makhzani等人[2015]),它使用对抗性训练对自动编码器隐藏层内学习的潜伏代码施加一个任意的先验,也被证明可以有效地学习输入分布。利用这种学习输入分布的能力,提出的几个基于生成对抗网络的异常检测(GAN-AD)框架(Li等[2018],Deecke等[2018],Schlegl等[2017],Ravanbakhsh等[2017b],Eide[2018])被证明在识别高维和复杂数据集上的异常方面很有效。然而,传统的方法,如K-近邻(KNN),与深度生成模型相比,在异常点数量较少的情况下表现更好(ˇSkv´ara等人[2018])。

11.6 卷积神经网络

卷积神经网络(CNN),是分析视觉图像的神经网络的流行选择(Krizhevsky等人[2012])。CNN从具有复杂结构的高维数据中提取复杂隐藏特征的能力,使其能够作为特征提取器用于序列和图像数据集的离群检测(Gorokhov等人[2017],Kim[2014])。对基于CNN的异常检测框架的评估目前仍是一个活跃的研究领域(Kwon等人[2018])。

11.7 序列模型

递归神经网络(RNNs)(Williams [1989])被证明可以捕捉时间序列数据的特征。RNNs的局限性在于,随着时间步骤的增加,它们无法捕捉到上下文,为了解决这个问题,长短时记忆(Hochreiter和Schmidhuber[1997])网络被引入,它们是RNNs的一种特殊类型,由一个记忆单元组成,可以存储之前的时间步骤的信息。门控递归单元(Cho等人[2014])(GRU)与LSTM相似,但使用一组门控来控制信息流,而不是单独的存储单元。由于其在第9.9节中说明的广泛的工程问题中的应用,顺序数据的异常检测在文献中引起了极大的兴趣。基于长短时记忆(LSTM)的神经网络的异常检测算法已被研究,并被报道比传统方法产生了明显的性能提升(Ergen等人[2017])。

11.8 自动编码器

单层的自动编码器与线性激活函数几乎等同于主成分分析(PCA)(Pearson [1901])。PCA仅限于线性降维,而自动编码器则可以进行线性或非线性转换(Liou等人[2008,2014])。自动编码器的流行应用之一是异常检测。自动编码器也被称为复制者神经网络(RNN)(Hawkins等人[2002], Williams等人[2002])。自动编码器通过重构输入数据在多个隐藏层内表示数据,有效地学习了一个身份函数。当自动编码器只对正常数据实例(异常检测任务中的大多数)进行训练时,不能重建异常数据样本,因此,产生了很大的重建误差。产生高残留误差的数据样本被认为是异常值。如图13所示,提出了几种自动编码器架构的变体,在异常检测中产生了很好的效果。自动编码器架构的选择取决于数据的性质,卷积网络是图像数据集的首选,而基于长短时记忆(LSTM)的模型往往对连续数据产生良好的结果。结合卷积和LSTM层的努力,其中编码器是卷积神经网络(CNN),而解码器是多层LSTM网络,以重建输入图像,这表明在检测数据中的异常情况方面是有效的。使用组合模型,如门控递归单元自动编码器(GRU-AE)、卷积神经网络自动编码器(CNN-AE)、长短时记忆(LSTM)自动编码器(LSTM-AE)消除了准备手工制作特征的需要,有利于在异常检测任务中使用最少预处理的原始数据。尽管自动编码器是用于异常点检测的简单而有效的架构,但由于噪声训练数据,其性能会下降(Zhou和Paffenroth[2017])。

12 相对优势和劣势:深度异常检测方法

前面讨论的每种深度异常检测(DAD)技术都有其独特的优势和劣势。了解哪种异常检测技术最适合给定的异常检测问题背景是至关重要的。鉴于DAD是一个活跃的研究领域,为每个异常检测问题提供这种理解是不可行的。因此,在本节中,我们分析了一些简单问题设置中不同类别技术的相对优势和劣势。第10.1节中说明的基于分类的监督式DAD技术在正常和异常实例的标签数量相同的情况下是更好的选择。有监督的DAD技术的计算复杂性是一个关键的方面,特别是当该技术被应用于真实的领域。虽然基于分类的监督或半监督技术有昂贵的训练时间,但测试通常是快速的,因为它使用预先训练好的模型。第10.5节中介绍的无监督DAD技术正在被广泛使用,因为标签的获取是一个昂贵的、耗时的过程。大多数无监督的深度异常检测需要对异常分布进行先验假设,因此这些模型在处理噪声数据时不太稳健。第10.3节中说明的混合模型在深度神经网络的隐藏层中提取稳健的特征,并反馈给性能最好的经典异常检测算法。混合模型的方法是次优的,因为它无法影响隐藏层中的表征学习。第10.4节中描述的单类神经网络(OC-NN)结合了深度网络的能力,在单类目标的同时提取数据的逐步丰富的表征,如超平面(Chalapathy等人[2018a])或超球(Ruff等人[2018a]),将所有正常数据点与异常数据点分开。为了更好地理解所提出的这种新架构的好处,有必要进行进一步的研究和探索。

13 结论

在这篇调查报告中,我们讨论了基于深度学习的异常检测的各种研究方法,以及它在各个领域的应用。本文讨论了深度异常检测的挑战,并提出了几个现有的解决方案来应对这些挑战。对于每一类深度异常检测技术,我们提出了关于正常和异常数据概念的假设,以及它的优势和劣势。这项调查的目的是调查和识别用于异常检测的各种深度学习模型,并评估其对特定数据集的适用性。在为特定领域或数据选择深度学习模型时,这些假设可以作为指导方针,评估该技术在该领域的有效性。基于深度学习的异常检测仍然是活跃的研究,未来可能的工作是随着更多复杂技术的提出,扩展和更新这项调查。

个人感觉这篇综述质量确实不咋地,都是些鸡肋的东西。

你可能感兴趣的:(入侵检测,异常检测,网络攻击检测)