appron

异常检测的深度学习：一项调查（翻译）

DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY

0.摘要

1.引言

2.什么是异常现象

3.什么是新颖性

4.动机和挑战：深度异常检测（DAD）技术

5.相关工作

6.我们的贡献

7.组织

8.基于深度学习的异常检测的不同方面

8.1 输入数据的性质

8.2 基于标签的可用性

8.2.1 有监督的深度异常检测

8.2.2 半监督的深度异常检测

8.2.3 无监督深度异常检测

8.3 基于训练目标

8.3.1 深度混合模型（DHM，非端到端：深度特征提取+传统分类）

8.3.2 一类神经网络（OC-NN，端到端）？？？

8.4异常的类型

8.4.1 点状异常

8.4.2 上下文异常检测

8.4.3 集体或群体异常检测。

8.5 DAD技术的输出

8.5.1 异常得分。

8.5.2 标签。

9 深度异常检测的应用

9.1 入侵检测

9.1.1 基于主机的入侵检测系统（HIDS）。

9.1.2 网络入侵检测系统（NIDS）。

9.2 欺诈检测

9.2.1 银行欺诈

9.2.2 移动蜂窝网络欺诈

9.2.3 保险欺诈

9.2.4 医疗保健欺诈

9.3 恶意软件检测

9.4 医学异常检测

9.5 深度学习在社交网络中的异常检测

9.6 日志异常检测

9.7 物联网（IoT）

9.8 工业异常检测

9.9 时间序列的异常检测

9.9.1 单变量时间序列深度异常检测

9.9.2 多变量时间序列深度异常检测

9.10 视频监控

10.深度异常检测模型

10.1 有监督的深度异常检测

10.2 半监督的深度异常检测

10.3 混合深度异常检测

10.4 用于异常检测的单类神经网络（OC-NN）

10.5 无监督的深度异常检测

10.6 杂项技术

10.6.1 基于迁移学习的异常检测

10.6.2 基于零点学习的异常检测

10.6.3 基于集合的异常检测

10.6.4 基于聚类的异常检测

10.6.5 基于深度强化学习（DRL）的异常检测

10.6.6 统计技术深度异常检测

11 定位异常点的深度神经网络架构

11.1 深度神经网络（DNN）

11.2 空间-时间网络（STN）

11.3 总和-产品网络（SPN）

11.4 Word2vec模型

11.5 生成模型

11.6 卷积神经网络

11.7 序列模型

11.8 自动编码器

12 相对优势和劣势：深度异常检测方法

13 结论

0.摘要

异常检测是一个重要的问题，在不同的研究领域和应用领域都得到了充分的研究。

本调查的目的有两个方面，首先我们对基于深度学习的异常检测的研究方法进行了结构化和全面的概述。此外，我们回顾了这些方法在不同应用领域中对异常现象的采用情况，并评估其有效性。（方法及其应用的概述）
我们根据所采用的基本假设和方法，将最先进的深度异常检测研究技术归为不同的类别。在每个类别中，我们概述了基本的异常检测技术及其变体，并提出了关键假设，以区分正常和异常行为。（假设与分类）
此外，对于每个类别，我们还介绍了其优点和局限性，并讨论了这些技术在实际应用领域的计算复杂性。（优缺点）
最后，我们概述了研究中的开放性问题以及在采用深度异常检测技术解决现实世界问题时面临的挑战。（问题与挑战）

1.引言

在分析现实世界的数据集时，一个常见的需求是确定哪些实例与其他所有实例不同。这样的实例被称为异常，而异常检测（也被称为离群点检测）的目标是以数据驱动的方式确定所有这样的实例（Chandola等人[2007]）。异常可能是由数据中的错误引起的，但有时也表明了一个新的、以前未知的基本过程；Hawkins[1980]将异常值定义为与其他观测值严重偏离的观测值，以引起人们对它是由不同机制产生的怀疑。在更广泛的机器学习领域，最近几年见证了深度神经网络的普及，在各个应用领域取得了前所未有的成果。深度学习是机器学习的一个子集，通过学习将数据表示为神经网络层内的概念嵌套层次，从而达到良好的性能和灵活性。如图1所示，随着数据规模的增加，深度学习的性能优于传统机器学习。近年来，基于深度学习的异常检测算法越来越受欢迎，并被应用于不同的任务，如图2所示；研究表明，深度学习完全超越了传统方法（Javaid等人[2016]，Peng和Marculescu[2015]）。本调查的目的有两个方面：

首先我们对深度异常检测（DAD）的研究方法进行了结构化的全面回顾。
此外，我们还讨论了DAD方法在各个应用领域的采用情况，并评估其有效性。

2.什么是异常现象

在数据挖掘和统计学文献中，异常也被称为异常值、偏差值或离群值（Aggarwal [2013]）。如图3所示，N1和N2是由大多数观测值组成的区域，因此被认为是正常的数据实例区域，而区域O3和数据点O1和O2是少数数据点，它们位于离大部分数据点较远的地方，因此被认为是异常点。由于一些原因，如恶意行为、系统故障、故意欺诈等，导致了异常点的出现。这些异常现象揭示了关于数据的令人振奋的见解，并经常传达关于数据的宝贵信息。因此，异常检测被认为是各种决策系统中的一个重要步骤。

3.什么是新颖性

新颖性检测是识别数据中的新颖（新）或未观察到的模式（Miljkovi´c [2010]）。检测到的新颖性不被视为异常数据点；相反，它们被应用于常规数据模型。对于这些以前未见过的数据点，可以使用决策阈值分数来分配一个新奇性分数（Pimentel等人[2014]）。显著偏离该决策阈值的点可以被认为是异常点或离群点。例如，在图4中，常规老虎中的（白虎）图像可被视为新奇，而（马、豹、狮子和猎豹）的图像则被视为异常点。用于异常检测的技术经常被用于新奇性检测，反之亦然。

4.动机和挑战：深度异常检测（DAD）技术

传统算法在检测异常值方面的性能在图像（如医学图像）和序列数据集上是次优的，因为它不能捕获数据中的复杂结构。对大规模异常检测的需求。
随着数据量的增加，比如说增加到几十亿字节，传统的方法几乎不可能扩展到如此大规模的数据来寻找异常值。
深度异常检测（DAD）技术从数据中学习层次分明的判别特征。这种自动特征学习能力消除了由领域专家开发人工特征的需要，因此主张在文本和语音识别等领域采取原始输入数据的方式来端到端解决问题。
在一些数据领域中，正常和异常（错误）行为之间的界限往往没有精确的定义，而且还在不断地演变。这种缺乏明确的代表性的正常边界给传统的和基于深度学习的算法都带来了挑战。

5.相关工作

尽管深度学习方法在许多机器学习问题上取得了实质性的进展，但用于异常检测的深度学习方法却相对匮乏。

Adewumi和Akinyelu[2017]对基于深度学习的欺诈检测方法进行了全面调查。
Kwon等人[2017]对用于网络入侵检测的深度异常检测（DAD）技术进行了广泛回顾。
Litjens等人[2017]介绍了在医疗领域使用DAD技术的广泛回顾。
Mohammadi等人[2017]介绍了用于物联网（IoT）和大数据异常检测的DAD技术概述。
Ball等人[2017]回顾了传感器网络异常检测。
Kiran等人[2018]介绍了最先进的基于深度学习的视频异常检测方法以及各种类别。

虽然在应用DAD技术方面有一些评论，但缺少对异常点检测所采用的深度学习架构的比较分析。例如，大量关于异常检测的研究是使用深度自动编码器进行的，但缺乏对最适合给定数据集和应用领域的各种深度架构的全面调查。我们希望这项调查能够弥补这一缺陷，为希望利用深度学习进行异常检测的研究人员和工程师提供全面的参考。表1显示了我们的调查所涵盖的一系列研究方法和应用领域。

6.我们的贡献

我们遵循（Chandola等人[2007]）的调查方法，进行深度异常检测（DAD）。我们的调查对DAD技术的研究和应用进行了详细而有条理的概述。我们将我们的主要贡献总结如下。

大多数现有的关于DAD技术的调查要么专注于特定的应用领域，要么专注于特定的研究领域（Kiran等人[2018]、Mohammadi等人[2017]、Litjens等人[2017]、Kwon等人[2017]、Adewumi和Akinyelu[2017]、Ball等人[2017]）。这篇评论旨在全面概述DAD技术的最先进研究，以及介绍这些技术在现实世界的几个应用。
近年来，几个新的基于深度学习的异常检测技术已经被开发出来，其计算要求大大降低。本文的目的是调查这些技术，并将它们分类为一个有组织的模式，以便更好地理解。我们又引入了两个子类别混合模型（Erfani等人[2016a]）和单类神经网络技术（Chalapathy等人[2018a]），如图5所示，基于训练目标的选择。对于每个类别，我们都讨论了为获得最佳性能而采用的假设和技术。此外，在每个类别中，我们还介绍了挑战、优势和劣势，并对DAD方法的计算复杂性进行了概述。

7.组织

本章按照图5中描述的结构组织。在第8节，我们确定了决定问题表述的各个方面，并强调了与异常检测相关的丰富性和复杂性。我们介绍并定义了两种类型的模型：上下文和集体或群体的异常情况。在第9节，我们简要介绍了基于深度学习的异常检测所应用的不同应用领域。在随后的章节中，我们根据基于深度学习的技术所属的研究领域，对其进行了分类。根据所采用的训练目标和标签的可用性，基于深度学习的异常检测技术可以被分为有监督的（第10.1节）、无监督的（第10.5节）、混合的（第10.3节）和单类神经网络（第10.4节）。对于每一类技术，我们还讨论了它们在训练和测试阶段的计算复杂性。在第8.4节中，我们讨论了基于点、上下文和集体（群）深度学习的异常检测技术。我们在第12节中对现有各种技术的局限性和相对性能进行了一些讨论。第13节包含结语。

8.基于深度学习的异常检测的不同方面

本节确定并讨论了基于深度学习的异常检测的不同方面。

8.1 输入数据的性质

深度异常检测方法中深度神经网络架构的选择主要取决于输入数据的性质。

输入数据可以大致分为顺序数据（例如，语音、文本、音乐、时间序列、蛋白质序列）和非顺序数据（例如，图像、其他数据）。表
此外，根据特征（或属性）的数量，输入数据可以进一步被分为低维或高维数据。DAD技术一直是在高维原始输入数据中学习复杂的分层特征关系（LeCun等人[2015]）。DAD技术中使用的层数由输入数据维度驱动，更深的网络被证明在高维数据上能产生更好的性能。

表2说明了输入数据的性质和异常检测中使用的深度模型架构。稍后，在第10节中，我们将深入回顾用于离群检测的各种模型。

8.2 基于标签的可用性

标签表明所选择的数据实例是正常的还是异常值。异常点是罕见的实体，因此要获得它们的标签是很困难的。此外，异常行为可能会随着时间的推移而改变，例如，异常的性质已经发生了很大的变化，在Maroochy水处理厂，它仍然没有被注意到，很长一段时间，导致了1.5亿升未经处理的污水泄漏到当地的水道（Ramotsoela等人[2018]）。根据标签的可用程度，深度异常检测（DAD）模型可以大致分为三类。

有监督的深度异常检测。
半监督的深度异常检测。
无监督的深度异常检测。

8.2.1 有监督的深度异常检测

有监督的深度异常检测包括训练一个深度有监督的二类或多类分类器，使用正常和异常数据实例的标签。例如，有监督的DAD模型，被制定为多类分类器，有助于检测稀有品牌、禁止提及的药品名称和欺诈性的医疗保健交易（Chalapathy等人[2016a,b]）。尽管有监督的DAD方法的性能有所提高，但由于缺乏标记的训练样本，这些方法不像半监督或无监督的方法那样受欢迎。此外，由于类的不平衡（正类实例的总数远远多于负类数据的总数），用于异常检测器的深度监督分类器的性能是次优的。因此，我们在本调查中不考虑对有监督的DAD方法的审查。

8.2.2 半监督的深度异常检测

正常实例的标签远比异常实例更容易获得，因此，半监督的DAD技术被更广泛地采用，这些技术利用现有的单一（通常是正类）的标签来分离5个异常值。在异常检测中使用深度自动编码器的一种常见方式是在没有异常的数据样本上以半监督的方式训练它们。有了足够的训练样本，正常类的自动编码器会对正常实例产生较低的重建误差，超过异常事件（Wulsin等人[2010]，Nadeem等人[2016]，Song等人[2017]）。我们在第10.2节考虑对这些方法进行详细的回顾。

8.2.3 无监督深度异常检测

无监督深度异常检测技术仅根据数据实例的内在属性检测异常值。无监督的DAD技术被用于自动标注未标注的数据样本，因为标注的数据很难获得（Patterson和Gibson[2017]）。无监督DAD模型的变体（Tuor等人[2017]）被证明优于传统方法，如主成分分析（PCA）（Wold等人[1987]）、支持向量机（SVM）Cortes和Vapnik[1995]和隔离森林（Liu等人[2008]）技术在健康和网络安全等应用领域。自动编码器是所有无监督DAD模型的核心。这些模型假设正常实例比异常数据实例的发生率高，这将导致高的假阳性率。此外，无监督学习算法，如受限玻尔兹曼机（RBM）（Sutskever等人[2009]）、深度玻尔兹曼机（DBM）、深度信念网络（DBN）（Salakhutdinov和Larochelle[2010]）、广义去噪自动编码器（Vincent等人[2008]）。[2008]），循环神经网络（RNN）（Rodriguez等人[1999]）用于检测异常值的长短期记忆网络（Lample等人[2016]）将在第11.7节详细讨论。

8.3 基于训练目标

在这项调查中，我们介绍了两类新的基于训练目标的深度异常检测（DAD）技术，采用了1）深度混合模型（DHM）。2）单类神经网络（OC-NN）。

8.3.1 深度混合模型（DHM，非端到端：深度特征提取+传统分类）

用于异常检测的深度混合模型使用主要是自动编码器的深度神经网络作为特征提取器，在自动编码器的隐藏表征内学习的特征被输入到传统的异常检测算法。图7说明了用于异常检测的深度混合模型架构。

如一类SVM（OC-SVM）来检测异常值（Andrews等人[2016a]）。
在转移学习成功地从大数据集上预训练的模型中获得丰富的代表性特征之后，混合模型也采用了这些预训练的转移学习模型作为特征提取器，取得了巨大的成功（Pan等人[2010]）。
Ergen等人[2017]提出了混合模型的一个变体，该模型考虑了与OC-SVM（或SVDD）目标一起联合训练特征提取器，以最大限度地提高检测性能。

这些混合方法的一个明显的缺点是缺乏为异常检测定制的可训练目标，因此这些模型不能提取丰富的差异特征来检测异常值。为了克服这一局限性，引入了为异常检测定制的目标，如深度单类分类（Ruff等人[2018a]）和单类神经网络（Chalapathy等人[2018a]）。

8.3.2 一类神经网络（OC-NN，端到端）？？？

一类神经网络（OC-NN）Chalapathy等人[2018a]的方法受到基于核的一类分类的启发，它将深度网络提取逐步丰富的数据表示的能力与围绕正常数据创建紧密包络的一类目标相结合。OC-NN方法在以下关键原因上有了新的突破：隐藏层中的数据表示是由OC-NN目标驱动的，因此是为异常检测定制的。这与其他方法不同，其他方法使用的是混合方法，即使用自动编码器学习深度特征，然后将这些特征送入一个单独的异常检测方法，如单类SVM（OC-SVM）。关于一类神经网络的训练和评估的细节在第10.4节讨论。一类神经网络架构的另一个变体深支持向量数据描述（Deep SVDD）（Ruff等人[2018a]）通过紧密映射正常数据实例到球体中心来训练深层神经网络以提取共同的变化因素，被证明在MNIST（LeCun等人[2010]）和CIFAR-10（Krizhevsky和Hinton[2009]）数据集中产生性能改进。

8.4异常的类型

异常现象大致可分为三种类型：点状异常、上下文异常和集体异常。深度异常检测（DAD）方法已被证明可以非常成功地检测出所有三种类型的异常。

8.4.1 点状异常

文献中的大部分工作都集中在点状异常上。点异常通常代表随机发生的不规则或偏差，可能没有特别的解释。例如，在图10中，在摩纳哥餐厅记录的一笔高消费的信用卡交易似乎是一个点异常，因为它明显偏离了其他的交易。第9节回顾了考虑到点状异常检测的几个现实世界的应用。

8.4.2 上下文异常检测

上下文异常也被称为条件性异常，是指在某些特定背景下可以被认为是异常的数据实例（Song等人[2007]）。上下文异常是通过考虑上下文和行为特征来识别的。上下文特征，通常使用的是时间和空间。而行为特征可能是花钱的模式、系统日志事件的发生或任何用于描述正常行为的特征。图9a说明了考虑温度数据的上下文异常的例子，该数据由6月前的急剧下降表示；该值并不表明在这段时间发现的正常值。图9b说明了使用基于深度长短时记忆（LSTM）（Hochreiter和Schmidhuber [1997]）的模型来识别特定背景下的异常系统日志事件（Du等人[2017]）（例如，事件53被检测为脱离背景）。

8.4.3 集体或群体异常检测。

单个数据点的异常集合被称为集体或群体异常，其中每个单独的点在孤立的情况下似乎是正常的数据实例，而在一个群体中观察到的是不寻常的特征。例如，考虑一个欺诈性信用卡交易的例子，在图10所示的日志数据中，如果发生了 "MISC "的单一交易，它可能不会显得那么异常。下面这组价值75美元的交易似乎是一个集体或群体异常的候选者。群体异常检测（GAD）强调不规则的群体分布（例如，使用自动编码器模型的变体检测图像像素的不规则混合物（Chalapathy等人[2018b]，Bontemps等人[2016]，Araya等人[2016]，Zhuang等人[2017]）。

8.5 DAD技术的输出

异常检测方法的一个关键方面是检测异常的方式。一般来说，异常检测方法产生的输出是异常得分或二进制标签。

8.5.1 异常得分。

异常得分描述了每个数据点的异常程度。数据实例可以根据异常得分进行排序，并由主题专家选择一个特定领域的阈值（通常称为决策得分）来识别异常情况。一般来说，决策分数比二进制标签揭示了更多信息。例如，在Deep SVDD方法中，决策分数是衡量数据点与球体中心的距离，离中心较远的数据点被认为是异常的（Ruff等人[2018b]）。

8.5.2 标签。

一些技术可以不分配分数，而是给每个数据实例分配一个正常或异常的类别标签。使用自动编码器的无监督异常检测技术测量残差向量的大小（即重建误差）以获得异常分数，后来，重建误差由领域专家进行排序或阈值，以标记数据实例。

9 深度异常检测的应用

在本节中，我们讨论深度异常检测的几个应用。对于每个应用领域，我们讨论以下四个方面： -异常的概念； -数据的性质； -与检测异常有关的挑战； -现有的深度异常检测技术。

9.1 入侵检测

入侵检测系统（IDS）是指识别计算机相关系统中的恶意活动（Phoha [2002]）。IDS可以部署在单个计算机上，称为主机入侵检测（HIDS），也可以部署在大型网络中的网络入侵检测（NIDS）。用于入侵检测的深度异常检测技术的分类见图11。IDS根据检测方法被分为基于签名的和基于异常的。使用基于签名的IDS对于检测新的攻击并不有效，因为没有特定的签名模式，因此基于异常的检测方法更受欢迎。在本调查中，我们重点讨论入侵检测中采用的深度异常检测（DAD）方法和架构。

9.1.1 基于主机的入侵检测系统（HIDS）。

这类系统是安装的软件程序，通过监听主机内发生的系统调用或事件，监测单个主机或计算机的恶意活动或政策违反情况（Vigna和Kruegel [2005]）。系统调用日志可以由程序产生，也可以由用户互动产生，导致日志如图9b所示。恶意的互动导致这些系统调用以不同的顺序执行。HIDS也可以监测系统的状态，其存储的信息，在随机存取存储器（RAM），在文件系统，日志文件或其他地方的有效序列。应用于HIDS的深度异常检测（DAD）技术需要处理数据的可变长度和顺序性。DAD技术必须对序列数据进行建模或计算序列之间的相似性。表3显示了一些用于HIDS的成功的DAD技术。

9.1.2 网络入侵检测系统（NIDS）。

NIDS系统通过检查每一个网络数据包来监控整个网络中的可疑流量。由于实时流行为，数据的性质与大数据同义，具有高容量、高速度、高种类。网络数据也有一个与之相关的时间方面。表4显示了一些用于NIDS的成功的DAD技术。该调查还在表5中列出了用于评估DAD入侵检测方法的数据集。DAD技术在入侵检测中面临的一个挑战是，随着入侵者调整他们的网络攻击以逃避现有的入侵检测解决方案，异常现象的性质不断变化。

9.2 欺诈检测

欺诈是一种故意的欺骗行为，以获取有价值的资源（Abdallah等人[2016]）。普华永道（PwC）2018年全球经济犯罪调查（Lavion [2018], Zhao [2013]）发现，在他们调查的7200家公司中，有一半经历过某种性质的欺诈。欺诈检测指的是检测各行业的非法活动，在12中说明。电信、保险（健康、汽车等）索赔、银行（报税、信用卡交易等）中的欺诈是政府和私营企业的重大问题。检测和预防欺诈不是一项简单的任务，因为欺诈是一种适应性犯罪。许多传统的机器学习算法已经成功应用于欺诈检测（Sorournejad等人[2016]）。与检测欺诈相关的挑战是，它需要实时检测和预防。本节重点讨论用于欺诈检测的深度异常检测（DAD）技术。

9.2.1 银行欺诈

信用卡已成为网上购物商品和服务的一种流行支付方式。信用卡欺诈涉及盗取支付卡的详细信息，并将其作为交易中的欺诈性资金来源。在过去几年中，已经提出了许多信用卡欺诈检测技术（Zhou等人[2018]，Suganya和Kamalraj[2015]）。我们将简要地回顾一些DAD技术，如表6所示。信用卡欺诈检测中的挑战是欺诈行为没有一致的模式。信用卡欺诈检测中的典型方法是为每个用户维护一个使用档案，并监测用户档案以检测任何偏差。由于有数十亿的信用卡用户，这种用户档案方法技术的可扩展性不强。由于DAD技术固有的可扩展性，该技术在信用卡欺诈检测中得到了广泛的应用。

9.2.2 移动蜂窝网络欺诈

近来，移动蜂窝网络已经见证了快速的部署和发展，支持数十亿的用户和大量不同的移动设备。由于这种广泛的采用和较低的移动蜂窝网络服务费，移动蜂窝网络现在面临着一些欺诈行为，如以窃取客户私人信息为目标的语音诈骗，以及以敲诈客户钱财为目的的信息传递相关诈骗。由于移动蜂窝网络的数量和速度，检测这种欺诈行为是最重要的，而且不是一件容易的事。具有静态特征工程技术的传统机器学习方法无法适应不断变化的欺诈行为的性质。表7列出了用于移动蜂窝网络欺诈检测的DAD技术。

9.2.3 保险欺诈

一些传统的机器学习方法已被成功应用于检测保险索赔中的欺诈行为（Joudaki等人[2015]，Roy和George[2017]）。欺诈检测的传统方法是基于作为欺诈指标的特征。这些传统方法所面临的挑战是，需要人工的专业知识来提取强大的特征。保险欺诈检测的另一个挑战是，欺诈的发生率远远低于索赔的总数，而且每个欺诈都有其独特的方式。为了克服这些限制，我们提出了几种DAD技术，如表8所示。

9.2.4 医疗保健欺诈

医疗保健是人们生活中不可或缺的组成部分，浪费、滥用和欺诈每年都会使医疗保健的成本增加数百亿美元。医疗保险索赔欺诈是导致医疗成本增加的一个重要因素，但其影响可以通过欺诈检测来减轻。一些机器学习模型已经被有效地用于医疗保险欺诈（Bauder和Khoshgoftaar [2017]）。表9介绍了用于医疗保健欺诈识别的DAD方法概述。

9.3 恶意软件检测

恶意软件，是恶意软件的简称。为了保护合法用户免受恶意软件的侵害，人们提出了基于机器学习的高效恶意软件检测方法（Ye等人[2017]）。在经典的机器学习方法中，恶意软件检测的过程通常分为两个阶段：特征提取和分类/聚类。传统恶意软件检测方法的性能关键取决于提取的特征和分类/聚类的方法。恶意软件检测问题的相关挑战是数据的巨大规模，例如，考虑到数据的字节，一个特定的序列分类问题可能是两百万个时间步骤的数量。此外，恶意软件具有很强的适应性，攻击者会使用高级技术来隐藏恶意行为。表10中显示了一些有效解决这些挑战并检测恶意软件的DAD技术。

9.4 医学异常检测

已经进行了一些研究，以了解深度学习在医学和生物信息学中的理论和实际应用（Min等人[2017]，Cao等人[2018a]，Zhao等人[2016]，Khan和Yairi[2018]）。在医学图像分析、临床脑电图（EEG）记录等领域寻找罕见事件（异常），能够对各种医疗状况进行诊断并提供预防治疗。如表11所示，基于深度学习的架构在检测医疗异常方面取得了巨大成功。医学领域中大量的不平衡数据给检测异常值带来了巨大的挑战。此外，深度学习技术长期以来一直被认为是黑箱技术。尽管深度学习模型产生了出色的性能，但这些模型缺乏可解释性。最近，具有良好解释能力的模型被提出，并显示出产生了最先进的性能（Gugulothu等人，Amarasinghe等人[2018b]，Choi[2018]）。

9.5 深度学习在社交网络中的异常检测

近来，在线社交网络已经成为日常生活的一部分和组成部分。社交网络中的异常现象是社交网络中个人的不规则行为模式，这些人可以被认定为垃圾邮件发送者、性掠夺者、在线欺诈者、假用户或谣言制造者。检测这些不正常的模式是最重要的，因为如果不被发现，这些人的行为会产生严重的社会影响。对传统的异常检测技术的调查及其在社交网络中检测异常的挑战是文献中一个很好的研究课题（Liu和Chawla[2017]，Savage等人[2014]，Anand等人[2017]，Yu等人[2016]，Cao等人[2018b]，于等人[2016]）。数据的异质性和动态性给DAD技术带来了重大挑战。尽管有这些挑战，表12中说明的几种DAD技术的表现优于现有技术方法。

9.6 日志异常检测

日志文件中的异常检测旨在寻找文本，这些文本可以表明系统故障的原因和性质。最常见的是，根据过去的经验构建一个特定领域的正则表达式，通过模式匹配找到新的故障。这种方法的局限性在于，较新的故障信息很容易不被发现（Memon [2008]）。日志数据的非结构化以及格式和语义的多样性给日志异常检测带来了巨大挑战。异常检测技术应该适应同时产生的日志数据集并实时检测异常值。继深度神经网络在实时文本分析中取得成功后，表13中说明的几种DAD技术将日志数据建模为自然语言序列，在检测异常值方面表现得非常有效。

9.7 物联网（IoT）

大数据异常检测物联网被认为是一个与软软件、服务器、传感器等相互连接的设备网络。在物联网领域，由气象站、射频识别（RFID）标签、IT基础设施组件和其他一些传感器产生的数据大多是时间序列的连续数据。在这些物联网网络中的异常检测可以识别这些大规模的互联设备的欺诈、故障行为。与异常值检测相关的挑战是，异构设备是相互连接的，这使得系统更加复杂。Mohammadi等人[2018]对使用深度学习（DL）来促进物联网领域的分析和学习进行了全面的概述。表14说明了物联网设备采用的DAD技术。

9.8 工业异常检测

由风力涡轮机、发电厂、高温能源系统、存储设备和旋转机械部件组成的工业系统每天都面临着巨大的压力。这类系统的损坏不仅会造成经济损失，也会造成声誉的损失，因此，早期检测和修复这些系统是最重要的。一些机器学习技术已被用于检测工业系统中的此类损坏（Ramotsoela等人[2018]，Mart´ı等人[2015]）。发表的几篇利用深度学习模型检测早期工业损害的论文显示出巨大的前景（Atha和Jahanshahi [2018], de Deijn [2018], Wang等人 [2018c]）。对设备造成的损坏是罕见的事件，因此检测此类事件可以被表述为离群点检测问题。在这个领域，与离群点检测相关的挑战既是数量，也是数据的动态性质，因为故障是由各种因素引起的。表15显示了不同行业中采用的一些DAD技术。

9.9 时间序列的异常检测

在持续时间内连续记录的数据被称为时间序列。时间序列数据可以大致分为单变量和多变量的时间序列。在单变量时间序列的情况下，只有单个变量（或特征）随时间变化。例如，从房间里的温度传感器收集到的每一秒钟的数据就是单变量时间序列数据。多变量时间序列包括几个随时间变化的变量（或特征）。加速计每秒钟为每个轴（x；y；z）产生三维数据，是多变量时间序列数据的一个完美例子。在文献中，单变量和多变量时间序列的异常类型被分为以下几类。(1) 点状异常。8.4.1 (2) 情境异常 8.4.2 (3) 集体异常 8.4.3. 近来，许多深度学习模型被提出来用于检测单变量和多变量时间序列数据中的异常情况，分别如表16和表17所示。使用深度学习模型数据检测时间序列中的异常情况的一些挑战是。缺少可以定义的异常现象发生的模式。输入数据中的噪声严重影响了算法的性能。随着时间序列数据的长度增加，计算的复杂性也会增加。时间序列数据通常是非平稳的、非线性的和动态演变的。因此，DAD模型应该能够实时检测异常情况。

9.9.1 单变量时间序列深度异常检测

深度学习领域的进步为提取丰富的层次特征提供了机会，可以大大改善单变量时间序列数据中的异常值检测。用于对单变量和多变量时间序列数据的异常检测算法进行基准测试的行业标准工具和数据集（包括基于深度学习的和非深度学习的）清单已在Github资源库2中列出并维护。表16说明了在单变量时间序列数据中进行异常检测时采用的各种深度架构。

9.9.2 多变量时间序列深度异常检测

多变量时间序列数据的异常检测是一项具有挑战性的任务。有效的多变量异常检测能够进行故障隔离诊断。基于RNN和LSTM的方法3在检测多变量时间序列数据集中的可解释性异常方面表现良好。Buda等人[2018]提出了DeepAD，一个基于深度学习的多变量时间序列异常检测通用框架。可以解释的是，使用基于深度关注的模型设计的异常检测系统能够有效地解释检测到的异常现象（Yuan等人[2018b]，Guo和Lin[2018]）。表17说明了在多变量时间序列数据内进行异常检测所采用的各种深度架构。

9.10 视频监控

视频监控也被俗称为闭路电视（CCTV），涉及监控指定的利益区域，以确保安全。在视频监控应用中，有大量的无标签数据，这对有监督的机器学习和深度学习方法是一个重大挑战。因此，由于缺乏标记数据的可用性，视频监控应用被建模为异常检测问题。一些工作研究了用于视频异常检测的最先进的深度模型，并根据模型的类型和检测标准对其进行了分类（Kiran等人[2018]，Chong和Tay[2015]）。Boghossian和Black[2005]详细讨论了强大的24/7视频监控系统的挑战。在现实生活的视频监控中，缺乏对异常的明确定义是一个重要的问题，它也阻碍了DAD方法的性能。表19说明了视频监控中使用的DAD技术。

10.深度异常检测模型

在本节中，我们讨论了根据标签的可用性和训练目标分类的各种DAD模型。对于每个模型类型领域，我们讨论以下四个方面：-假设；-模型架构类型；-计算复杂性；-优点和缺点；

10.1 有监督的深度异常检测

有监督的异常检测技术与无监督的异常检测技术相比在性能上更优越，因为这些技术使用标记的样本（G¨ornitz等人[2013]）。有监督的异常检测从一组有注释的数据实例中学习分离边界（训练），然后，用学到的模型将测试实例分为正常或异常类别（测试）。

假设。深度监督学习方法依赖于分离数据类别，而无监督技术则侧重于解释和理解数据的特征。基于多类分类的异常检测技术假定训练数据包含多个正常类的标记实例（Shilton等人[2013]，Jumutc和Suykens[2014]，Kim等人[2015]，Erfani等人[2017]）。多类异常检测技术学习一个分类器来区分异常类和其他类。一般来说，基于监督的深度学习的异常检测分类方案有两个子网络，一个是特征提取网络，另一个是分类器网络。深度模型需要大量的训练样本（数以千计或数以百万计）来学习特征表征，以有效区分各种类别实例。由于缺乏干净的数据标签，有监督的深度异常检测技术并不像半监督和无监督的方法那么受欢迎。
计算复杂度。基于深度监督的异常检测方法的计算复杂性取决于输入数据的维度和使用反向传播算法训练的隐藏层的数量。高维数据往往有更多的隐藏层，以确保对输入特征进行意义完整的分层学习。计算复杂度也随着隐藏层数量的增加而线性增加，需要更大的模型训练和更新时间。
优势和劣势。有监督的DAD技术的优点如下。

有监督的DAD方法比半监督和无监督的模型更准确。
基于分类技术的测试阶段是快速的，因为每个测试实例都需要与预先计算的模型进行比较。

监督式DAD技术的缺点如下。

多类监督技术需要各种正常类和异常实例的准确标签，而这往往是不可用的。
如果特征空间是高度复杂和非线性的，深度监督技术就不能将正常数据和异常数据分开。

10.2 半监督的深度异常检测

半监督或（单类分类）DAD技术假定所有训练实例只有一个类标签。Kiran等人[2018]和Min等人[2018]对基于深度学习的半监督的异常检测技术进行了回顾。DAD技术在正常实例周围学习一个判别性的边界。不属于多数类的测试实例被标记为异常（Perera和Patel[2018]，Blanchard等人[2010]）。表20中说明了各种半监督的DAD模型架构。

假设。半监督式DAD方法建议依靠以下假设之一来对数据实例进行评分，将其作为异常情况。

接近性和连续性。在输入空间和学习特征空间中相互接近的点更有可能共享相同的标签。
健壮的特征是在深度神经网络层的隐藏层中学习的，并保留了区分正常数据点和异常数据点的鉴别属性。

计算复杂度。基于半监督DAD方法的计算复杂性与监督DAD技术相似，主要取决于输入数据的维度和用于代表特征学习的隐藏层的数量。

优势和劣势。半监督式深度异常检测技术的优点如下。

在半监督学习模式下训练的生成对抗网络（GANs）已经显示出巨大的前景，即使只有很少的标记数据。
使用标记的数据（通常是一类），可以产生比无监督技术更好的性能。

Lu[2009]提出的半监督技术的基本缺点甚至在深度学习中也适用。此外，在隐藏层中提取的分层特征可能无法代表较少的异常实例，因此容易出现过度拟合问题。

10.3 混合深度异常检测

深度学习模型被广泛用作特征提取器，以学习稳健的特征（Andrews等人[2016a]）。在深度混合模型中，在深度模型内学习的代表性特征被输入到传统的算法中，如单类径向基函数（RBF）、支持向量机（SVM）分类器。混合模型采用两步学习，并被证明能产生最先进的结果（Erfani等人[2016a,b]，Wu等人[2015b]）。异常检测中使用的深度混合架构见表21。

假设。为异常检测提出的深度混合模型依赖于以下假设之一来检测异常值。

在深度神经网络的隐藏层中提取强壮的特征，帮助分离不相关的特征，这些特征可以掩盖异常现象的存在。
在复杂的高维空间上建立一个强大的异常检测模型需要特征提取器和异常检测器。表21中说明了各种异常检测器的使用情况

计算复杂性：混合模型的计算复杂性包括深度架构和传统算法的复杂性。此外，深层网络架构和参数的非琐碎选择的固有问题，涉及到在一个相当大的空间内搜索优化的参数，这引入了在混合模型内使用深层的计算复杂性。此外，考虑到经典的算法，如线性SVM，其预测复杂度为O(d)，d为输入维数。对于大多数核，包括多项式和RBF，复杂度是O(nd)，其中n是支持向量的数量，尽管对于具有RBF核的SVM来说，近似的O(d2)被考虑。

优势和劣势混合DAD技术的优势如下。

特征提取器大大减少了 "维度诅咒"，特别是在高维领域。
由于线性或非线性核模型在降低的输入维度上运行，混合模型更具有可扩展性和计算效率。

混合DAD技术的显著缺点是。

混合方法是次优的，因为它无法影响特征提取器隐藏层内的表征学习，因为采用了通用损失函数，而不是为异常检测定制的目标。
如果单独的层是（Saxe等人[2011]），更深的混合模型往往表现得更好，这引入了计算支出。

10.4 用于异常检测的单类神经网络（OC-NN）

单类神经网络（OC-NN）结合了深度网络的能力，以提取逐步丰富的数据表征，以及单类目标，如超平面（Chalapathy等人[2018a]）或超球（Ruff等人[2018a]），将所有正常数据点与异常值分开。OC-NN方法的新颖之处在于以下关键原因：通过优化为异常检测定制的目标函数来学习隐藏层中的数据表示，如图所示（Chalapathy等人[2018a]，Ruff等人[2018a]）的实验结果表明，OC-NN可以在复杂数据集中实现与现有最先进方法相当或更好的性能，同时与现有方法相比具有合理的训练和测试时间。

假设。为异常检测提出的OC-NN模型依靠以下假设来检测异常值。

OC-NN模型在深度神经网络的隐藏层中提取数据分布中的共同变化因素。
进行组合表征学习，并为测试数据实例产生一个异常点分数。
异常样本不包含共同的变异因素，因此隐藏层无法捕捉到异常值的表征。

计算复杂度。与混合模型相比，OC-NN模型的计算复杂性只包括所选择的深度网络的复杂性（Saxe等人[2011]）。OC-NN模型不需要为预测而存储数据，因此具有非常低的内存复杂性。然而，很明显，OC-NN的训练时间与输入维度成正比。优势和劣势。OC-NN的优点有以下几点。

OC-NN模型联合训练深度神经网络，同时优化输出空间中的数据封闭超球或超平面。
OC-NN提出了一种交替的最小化算法来学习OC-NN模型的参数。我们观察到，OC-NN目标的子问题等同于解决一个定义良好的量化选择问题。

OC-NN用于异常检测的明显缺点是。

对于高维的输入数据，训练时间和模型更新时间可能会更长。
考虑到输入空间的变化，模型更新也将需要更长的时间。

10.5 无监督的深度异常检测

无监督的DAD是基础机器学习研究和工业应用的一个重要研究领域。一些解决无监督异常检测挑战的深度学习框架被提出，并被证明产生了最先进的性能，如表22所示。自动编码器是用于异常检测的基本无监督深度架构（Baldi [2012]）。

假设。为异常检测提出的深度无监督模型依赖于以下假设之一来检测异常值。

原始或潜在特征空间中的 "正常 "区域可以与原始或潜在特征空间中的 "异常 "区域区分开来。
与数据集的其余部分相比，大多数数据实例是正常的。
无监督的异常检测算法根据数据集的内在属性（如距离或密度）产生数据实例的离群分数。深度神经网络的隐藏层旨在捕捉数据集中的这些内在属性（Goldstein和Uchida[2016]）。

计算的复杂性。自动编码器是离群检测中最常用的架构，具有二次成本，优化问题是非凸的，与其他神经网络架构类似。模型的计算复杂性取决于操作的数量、网络参数和隐藏层。然而，训练自动编码器的计算复杂度要比主成分分析（PCA）等传统方法高得多，因为PCA是基于矩阵分解的（Meng等[2018], Parchami等[2017]）。

优势和劣势。无监督的深度异常检测技术的优势如下。

学习固有的数据特征，将正常的数据点与异常的数据点分开。这种技术可以识别数据中的共性，有利于异常点的检测。
寻找异常点的技术具有成本效益，因为它不需要注释的数据来训练算法。

无监督的深度异常检测技术的显著缺点是。

在复杂的高维空间中学习数据的共性往往是一种挑战。
在使用自动编码器时，选择正确的压缩程度，即降维往往是一个需要调整的超参数，以获得最佳结果。
无监督技术技术对噪音和数据损坏非常敏感，而且往往不如有监督或半监督技术准确

10.6 杂项技术

本节探讨了各种DAD技术，这些技术被证明是有效和有前途的，我们讨论了这些技术背后的关键思想和它们的适用领域。

10.6.1 基于迁移学习的异常检测

长期以来，深度学习一直被批评为需要有足够的数据才能产生好的结果。Litjens等人[2017]和Pan等人[2010]都提出了对深度迁移学习方法的回顾，并说明了其对学习良好特征表示的意义。转移学习是机器学习中解决训练数据不足这一基本问题的重要工具。它的目的是通过放宽训练数据和未来数据必须在同一特征空间并具有相同分布的假设，将知识从源域转移到目标域。安德鲁斯等人[2016b]、Vercruyssen等人[2017]、Li等人[2012]、Almajai等人[2012]、Kumar和Vaidehi[2017]、Liang等人[2018]）对深度转移表示学习进行了探索，显示出产生了非常有希望的结果。使用转移学习进行异常检测的开放性研究问题是，转移能力的程度，即定义特征如何很好地转移知识并提高从一个任务到另一个任务的分类性能。

10.6.2 基于零点学习的异常检测

零点学习（ZSL）旨在识别训练集中从未见过的物体（Romera-Paredes and Torr [2015]）。ZSL通过两个阶段实现这一目标。首先，在自然语言描述或属性（通常称为元数据）中捕获关于物体的知识；其次，这些知识被用来在一组新的类别中对实例进行分类。这种设置在现实世界中很重要，因为人们在训练时可能无法获得所有可能的类别的图像。与这种方法相关的主要挑战是如何获得关于数据实例的元数据。然而，在异常和新奇检测中使用ZSL的几种方法被证明产生了最先进的结果（Mishra等人[2017]，Socher等人[2013]，Xian等人[2017]，刘等人[2017]，Rivero等人[2017]）。

10.6.3 基于集合的异常检测

深度神经网络的一个显著问题是，它们对输入数据中的噪声很敏感，通常需要大量的训练数据才能稳健地执行（Kim等人[2016]）。为了在嘈杂的数据中也能实现鲁棒性，一个随机改变自动编码器的连接结构的想法被证明可以获得明显更好的性能。Chen等人[2017]对由各种随机连接的自动编码器组成的自动编码器集合进行了实验，在几个基准数据集上取得了很好的结果。集合方法仍然是一个活跃的研究领域，已被证明可以产生更好的多样性，从而避免过拟合问题，同时减少训练时间。

10.6.4 基于聚类的异常检测

文献中提出了几种基于聚类的异常检测算法（Ester等人[1996]）。聚类涉及到根据提取的特征检测新的异常情况，将类似的模式分组。时间和空间的复杂性随着要聚类的类的数量线性增长（Sreekanth等人[2010]），这使得基于聚类的异常检测在实时实际应用中难以实现。输入数据的维度被降低，在深度神经网络的隐藏层中提取特征，这确保了复杂和高维数据集的可扩展性。深度学习支持的聚类方法异常检测利用例如word2vec（Mikolov等人[2013]）模型来获得正常数据和异常数据的语义展示，以形成聚类并检测异常值（Yuan等人[2017]）。有几项工作依靠混合模型的变体与自动编码器一起获得有代表性的特征进行聚类，以寻找异常点。

10.6.5 基于深度强化学习（DRL）的异常检测

深度强化学习（DRL）方法由于其在高维数据空间中学习复杂行为的能力而引起了极大的兴趣。de La Bourdonnaye等人[2017]、黄成强[2016]提出了利用深度强化学习检测异常的努力。基于DRL的异常检测器不考虑任何关于异常概念的假设，检测器通过积累的奖励信号不断增强其知识来识别新的异常。基于DRL的异常检测是一个非常新颖的概念，需要进一步调查和确定研究差距及其应用。

10.6.6 统计技术深度异常检测

希尔伯特变换是一种统计信号处理技术，它得出了实值信号的分析表示。(Kanarachos等人[2015])利用这一特性对与健康有关的时间序列数据集的异常情况进行实时检测，并被证明是一种非常有前途的技术。该算法将小波分析、神经网络和希尔伯特变换的能力以顺序的方式结合起来，以检测实时的异常情况。统计技术DAD技术的主题需要进一步调查，以充分了解它们在异常情况检测方面的潜力和适用性。

11 定位异常点的深度神经网络架构

11.1 深度神经网络（DNN）

"深度神经网络 "中的 "深度 "是指提取数据特征的层数（Schmidhuber [2015], Bengio等人[2009]）。深度架构克服了传统机器学习方法的可扩展性、对数据中新变化的概括性（LeCun等人[2015]）以及对人工特征工程的需求的限制。深度信念网络（DBN）是一类深度神经网络，它包括多层图形模型，被称为受限玻尔兹曼机（RBM）。使用DBNs进行异常检测的假设是，RBMs被用作具有反向传播算法的定向编码器-解码器网络（Werbos [1990]）。DBNs不能捕捉到异常样本的特征变化，导致高重构误差。DBNs被证明可以有效地扩展到大数据并提高可解释性（Wulsin等人[2010]）。

11.2 空间-时间网络（STN）

长期以来，研究人员一直在探索学习空间和时间关系特征的技术（Zhang等人[2018f]）。深度学习架构被利用来在学习空间方面（使用CNN）和时间特征（使用LSTM）方面单独表现良好。空间时间网络（STNs）由深度神经架构组成，结合CNN和LSTMs来提取空间时间特征。时间特征（通过LSTM对近似时间点之间的相关性进行建模）、空间特征（通过局部CNN对局部空间相关性进行建模）在检测异常值方面被证明是有效的（Lee等人[2018]，SZEK´ER[2014]，Nie等人[2018]，Dereszynski和Dietterich[2011]）。

11.3 总和-产品网络（SPN）

总和-产品网络（SPN）是以变量为叶子的有向无环图，内部节点、加权边构成总和与产品。SPNs被认为是混合模型的组合，它在许多层上都有快速准确的概率推理（Poon和Domingos[2011]，Peharz等人[2018]）。SPNs的主要优点是，与图形模型不同，SPNs在高树宽模型上更具有可追溯性，而不需要近似推理。此外，SPNs被证明能够以令人信服的方式捕捉其输入的不确定性，产生稳健的异常检测（Peharz等人[2018]）。SPNs在众多数据集上被证明是令人印象深刻的结果，而在离群点检测方面还有很多需要进一步探索的地方。

11.4 Word2vec模型

Word2vec是一组深度神经网络模型，用于产生单词嵌入（Mikolov等人[2013]）。这些模型能够捕捉到数据实例中的顺序关系，如句子、时间序列数据。获得词嵌入特征作为输入被证明可以提高几个深度学习架构的性能（Rezaeinia等人[2017]，Naili等人[2017]，Altszyler等人[2016]）。利用word2vec嵌入的异常检测模型被证明可以显著提高性能（Schnabel等人[2015]，Bertero等人[2017]，Bakarov等人[2018]，Bamler和Mandt[2017]）。

11.5 生成模型

生成模型旨在学习精确的数据分布，以便生成具有一定变化的新数据点。两个最常见和最有效的生成方法是变异自动编码器（VAE）（Kingma和Welling[2013]）和生成对抗网络（GAN）（Goodfellow等[2014a,b]）。GAN架构的一个变种被称为对抗性自动编码器（AAE）（Makhzani等人[2015]），它使用对抗性训练对自动编码器隐藏层内学习的潜伏代码施加一个任意的先验，也被证明可以有效地学习输入分布。利用这种学习输入分布的能力，提出的几个基于生成对抗网络的异常检测（GAN-AD）框架（Li等[2018]，Deecke等[2018]，Schlegl等[2017]，Ravanbakhsh等[2017b]，Eide[2018]）被证明在识别高维和复杂数据集上的异常方面很有效。然而，传统的方法，如K-近邻（KNN），与深度生成模型相比，在异常点数量较少的情况下表现更好（ˇSkv´ara等人[2018]）。

11.6 卷积神经网络

卷积神经网络（CNN），是分析视觉图像的神经网络的流行选择（Krizhevsky等人[2012]）。CNN从具有复杂结构的高维数据中提取复杂隐藏特征的能力，使其能够作为特征提取器用于序列和图像数据集的离群检测（Gorokhov等人[2017]，Kim[2014]）。对基于CNN的异常检测框架的评估目前仍是一个活跃的研究领域（Kwon等人[2018]）。

11.7 序列模型

递归神经网络（RNNs）（Williams [1989]）被证明可以捕捉时间序列数据的特征。RNNs的局限性在于，随着时间步骤的增加，它们无法捕捉到上下文，为了解决这个问题，长短时记忆（Hochreiter和Schmidhuber[1997]）网络被引入，它们是RNNs的一种特殊类型，由一个记忆单元组成，可以存储之前的时间步骤的信息。门控递归单元（Cho等人[2014]）（GRU）与LSTM相似，但使用一组门控来控制信息流，而不是单独的存储单元。由于其在第9.9节中说明的广泛的工程问题中的应用，顺序数据的异常检测在文献中引起了极大的兴趣。基于长短时记忆（LSTM）的神经网络的异常检测算法已被研究，并被报道比传统方法产生了明显的性能提升（Ergen等人[2017]）。

11.8 自动编码器

单层的自动编码器与线性激活函数几乎等同于主成分分析（PCA）（Pearson [1901]）。PCA仅限于线性降维，而自动编码器则可以进行线性或非线性转换（Liou等人[2008，2014]）。自动编码器的流行应用之一是异常检测。自动编码器也被称为复制者神经网络（RNN）（Hawkins等人[2002], Williams等人[2002]）。自动编码器通过重构输入数据在多个隐藏层内表示数据，有效地学习了一个身份函数。当自动编码器只对正常数据实例（异常检测任务中的大多数）进行训练时，不能重建异常数据样本，因此，产生了很大的重建误差。产生高残留误差的数据样本被认为是异常值。如图13所示，提出了几种自动编码器架构的变体，在异常检测中产生了很好的效果。自动编码器架构的选择取决于数据的性质，卷积网络是图像数据集的首选，而基于长短时记忆（LSTM）的模型往往对连续数据产生良好的结果。结合卷积和LSTM层的努力，其中编码器是卷积神经网络（CNN），而解码器是多层LSTM网络，以重建输入图像，这表明在检测数据中的异常情况方面是有效的。使用组合模型，如门控递归单元自动编码器（GRU-AE）、卷积神经网络自动编码器（CNN-AE）、长短时记忆（LSTM）自动编码器（LSTM-AE）消除了准备手工制作特征的需要，有利于在异常检测任务中使用最少预处理的原始数据。尽管自动编码器是用于异常点检测的简单而有效的架构，但由于噪声训练数据，其性能会下降（Zhou和Paffenroth[2017]）。

12 相对优势和劣势：深度异常检测方法

前面讨论的每种深度异常检测（DAD）技术都有其独特的优势和劣势。了解哪种异常检测技术最适合给定的异常检测问题背景是至关重要的。鉴于DAD是一个活跃的研究领域，为每个异常检测问题提供这种理解是不可行的。因此，在本节中，我们分析了一些简单问题设置中不同类别技术的相对优势和劣势。第10.1节中说明的基于分类的监督式DAD技术在正常和异常实例的标签数量相同的情况下是更好的选择。有监督的DAD技术的计算复杂性是一个关键的方面，特别是当该技术被应用于真实的领域。虽然基于分类的监督或半监督技术有昂贵的训练时间，但测试通常是快速的，因为它使用预先训练好的模型。第10.5节中介绍的无监督DAD技术正在被广泛使用，因为标签的获取是一个昂贵的、耗时的过程。大多数无监督的深度异常检测需要对异常分布进行先验假设，因此这些模型在处理噪声数据时不太稳健。第10.3节中说明的混合模型在深度神经网络的隐藏层中提取稳健的特征，并反馈给性能最好的经典异常检测算法。混合模型的方法是次优的，因为它无法影响隐藏层中的表征学习。第10.4节中描述的单类神经网络（OC-NN）结合了深度网络的能力，在单类目标的同时提取数据的逐步丰富的表征，如超平面（Chalapathy等人[2018a]）或超球（Ruff等人[2018a]），将所有正常数据点与异常数据点分开。为了更好地理解所提出的这种新架构的好处，有必要进行进一步的研究和探索。

13 结论

在这篇调查报告中，我们讨论了基于深度学习的异常检测的各种研究方法，以及它在各个领域的应用。本文讨论了深度异常检测的挑战，并提出了几个现有的解决方案来应对这些挑战。对于每一类深度异常检测技术，我们提出了关于正常和异常数据概念的假设，以及它的优势和劣势。这项调查的目的是调查和识别用于异常检测的各种深度学习模型，并评估其对特定数据集的适用性。在为特定领域或数据选择深度学习模型时，这些假设可以作为指导方针，评估该技术在该领域的有效性。基于深度学习的异常检测仍然是活跃的研究，未来可能的工作是随着更多复杂技术的提出，扩展和更新这项调查。

个人感觉这篇综述质量确实不咋地，都是些鸡肋的东西。

你可能感兴趣的:(入侵检测,异常检测,网络攻击检测)

shell脚本重启python脚本 mzgong python
#!/bin/bashwhiletrue#循环检测脚本是否停止doprocnum=$(ps-ef|grep"run.py"|grep-vgrep|wc-l)#记录正在运行run.py的数量echo"ps-efgrepreturn:"${procnum}#信息输出if[[${procnum}==0]];then#如果run.py正在运行数量等于0，脚本中断，需要重启filename=$(date+%
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
网络安全：数字时代的永恒命题安全
网络安全已成为数字时代最严峻的挑战之一。从个人隐私泄露到国家级网络攻击，网络安全威胁呈现出日益复杂和严峻的态势。2021年，全球网络犯罪造成的损失超过6万亿美元，这一数字预计将在2025年突破10万亿美元。网络安全不再仅仅是技术问题，而是关乎国家安全、经济发展和社会稳定的重大战略问题。一、网络安全威胁的演变与升级网络安全威胁的演变史就是一部攻防对抗的技术发展史。早期的网络攻击以病毒、蠕虫为主，攻击
Oracle RAC 三种心跳机制数据库急诊日记故障处理 oracle 数据库 database linux java python c语言
在OracleRAC（RealApplicationClusters）中，心跳（Heartbeat）是集群节点间用于检测存活状态的核心机制，确保节点间的通信正常并避免脑裂（SplitBrain）问题。以下是RAC的三种关键心跳机制及其作用：1.网络心跳（NetworkHeartbeat）作用：通过私有网络互联（PrivateInterconnect）实时检测节点间的通信状态。工作原理：每个节点周期
工程化与框架系列（31）--前端依赖管理实践一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端
前端依赖管理实践引言前端依赖管理是现代Web开发中的重要环节。本文将深入探讨前端依赖管理的最佳实践，包括包管理工具、版本控制、依赖分析和优化等方面，帮助开发者更好地管理项目依赖。依赖管理概述前端依赖管理主要包括以下方面：包管理工具：npm、yarn、pnpm等版本控制：语义化版本、锁文件等依赖分析：依赖树、循环依赖等依赖优化：体积优化、重复依赖等安全管理：漏洞检测、更新维护等依赖管理工具实现依赖分
RISC-V双核锁步高性能抗辐照MCU芯片技术解析与应用国科安芯产品 risc-v 单片机嵌入式硬件
1.概念名词解析安全冗余设计AS32X601系列通过硬件ECC（ErrorCorrectionCode）保护存储系统（内置SRAM、Flash等），并在DMA模块中提供“可选的双核锁步安全备份”机制，支持高可靠性场景下的数据传输容错。该设计符合ISO26262ASIL-B功能安全等级要求，适用于需检测瞬态或永久性硬件故障的工业与汽车应用。抗辐照性能该芯片通过增强型SEU（单粒子翻转）和SEL（单粒
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
2025版最新如何参加护网行动？零基础入门到精通，收藏这篇就够了！程序媛西米网络安全 web安全网络安全 HVV 护网行动网络安全计算机
1.什么是护网行动护网行动是以公安部牵头的，用以评估企事业单位的网络安全的活动。具体实践中，公安部会组织攻防两方，进攻方会在一个月内对防守方发动网络攻击，检测出防守方（企事业单位）存在的安全漏洞。通过与进攻方的对抗，企事业单位网络、系统以及设备等的安全能力会大大提高。“护网行动”是国家应对网络安全问题所做的重要布局之一。“护网行动”从2016年开始，随着我国对网络安全的重视，涉及单位不断扩大，越来
基于分组 NMS 的检测模型后处理改进 Lunar* 目标检测算法与优化目标检测深度学习 python
引言在目标检测任务中，后处理阶段的非极大值抑制（Non-MaximumSuppression,NMS）是至关重要的一环，主要用于去除高度重叠的冗余预测框。然而，在某些场景中，不同类别的目标可能会被网络同时预测为多个相近的类别，例如：交通工具检测场景：同一辆车可能被误检测为“自行车”和“电动车”。动物检测场景：同一只动物可能被误检测为“狼”和“狗”。家电检测场景：同一台设备可能被误检测为“微波炉”和
毕业论文AIGC高？5个方法有效降低AI率，消除AI痕迹！我是宝库 AIGC 人工智能经验分享论文抽检毕业论文 AIGC检测学习方法
现在很多学校要求毕业论文基本都要检测AIGC了。AIGC是指人工智能生成的内容，现在无论是毕业论文还是期刊投稿，都会检测论文是否由AI生成的，比如知网、维普、万方、Turnitin、MasterAI率检测等。如果你的论文使用了AI工具辅助写作，自己提前进行AIGC检测，必要时降低AIGC率是很有必要的，那么，如何降低AIGC率呢？分享5种方法：1、改写句子结构。AI生成的句子通常比较长，句子结构僵
《信息系统安全》课后习题答案（陈萍） 1ce0range 系统安全安全
第一章一、填空题1、机密性、完整性、可用性2、主动3、设备安全、数据安全、内容安全、行为安全4、通信保密、信息安全、信息安全保障5、保护、检测、响应、恢复二、选择题1、D2、C3、B4、A5、D6、A7、C8、B9、A10、B第二章一、填空题1、《保密系统的信息理论》，DES，RSA2、相同、存在确定的转换关系3、单向、机密性、不可否认性4、混淆、扩散5、完整性6、流密码7、密钥8、穷举法、分析法
3.13 YOLO V3 不要不开心了机器学习 pytorch 深度学习
今天的内容为YOLO-V3YOLO系列-YOLO-V3，最大的改进就是网络结构，使其更适合小目标检测。-特征做得更细致，融入多持续特征图信息来预测不同规格物体。-先验框更丰富了，3种scale，每种3个规格，一共9种。-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换
变压器油温实时监测模块设计与仿真（论文+仿真）云山工作室单片机嵌入式硬件毕业设计
1系统方案设计经过上述的功能需求分析和各个关键模块的选型后，最终得到了如图2.1所示的系统框图。采用了AT89S51单片机来作为控制器，同时结合DS18B20温度传感器来对变压器油温进行检测，同时配合LCD液晶，蜂鸣器，继电器等模块来实现85度时发出声光报警，在温度达到95度时，跳开变压器的开关（通过继电器开启来模拟），并同时发出声光报警的功能。2仿真效果
锐捷 | 交换机配置边缘端口+BPDU 小Mie不吃饭网络设备系列网络运维
在S3、S4开启边缘端口和BPDU防护功能；检测到环路后处理方式为关闭端口。如果端口检测进入禁用状态，设置200秒后会自动恢复。为了在两台交换机S3和S4上配置边缘端口和BPDU防护功能，并在检测到环路后自动恢复端口，您可以按照以下步骤进行配置：步骤1:配置边缘端口在S3和S4上配置边缘端口，使其能够快速进入转发状态。S3配置S3#configureterminalS3(config)#inter
win10快捷键冲突检测与解决方法 H.ZWei 开发工具的那些事快捷键检测快捷键冲突热键冲突
文章目录背景安装与使用背景相信很多人都遇到过，在使用一个快捷键时会经常与其他软件产生冲突，事与愿违；而且又很难找到是与哪个软件产生了冲突。有一款工具可以帮我们定位到目前的快捷键在哪个软件，这样就可以到对应的软件上把这个热键删除或者改成其他，避免热键冲突。安装与使用FindGlobalHotkey下载链接提取码：mxok下载解压即可使用如果需要检查某个快捷键被使用了，直接FindGlobalHotk
uniapp [安卓苹果App端] - 详细实现下载文件保存到用户手机本地，指定文件存储位置路径及文件夹名称下载并保存，Uniapp app端将文件下载保存并储存到指定目录（手机系统存储空间权限检测）王二红 +UniApp uni-app 安卓Android 苹果ios 下载文件到指定目录位置如何将文件保存到用户手机上下载指定文件存储路径并提示信息解决app端真机下载报错失败
前言网上的教程乱七八糟且兼容性太差，本文提供优质示例。在uni-appApp端（安卓APP|苹果APP）开发中，详解在app平台端实现下载文件到用户本机指定目录，检测并提示开启读写存储权限后执行保存文件功能，Uniapp下载文件并保存到本地解决方案，并且指定文件保存位置及文件夹名称，支持任意文件音视频/文档/图片等，下载成功或失败会有手机系统提示，提供详细示例代码。uniapp（v2|v3）版本项
Akamai 与 AWS 风控分析与绕过技术探讨 qq_33253945 aws 云计算爬虫网络爬虫算法安全
1.引言本文将深入探讨Akamai风控和AWS签名算法的技术细节。请注意，文中内容仅供技术研究和学习交流使用。2.Akamai风控核心要素Akamai的主要风控机制包含以下几个关键点：Canvas指纹识别每个浏览器环境都有其独特的Canvas指纹这是风控系统的核心识别方式之一用户行为分析鼠标移动轨迹检测操作行为模式识别相关参数的实时计算与验证JA3指纹TLS握手特征识别客户端环境特征分析代码执行流
【编程向导】-JavaScript-基础语法-类型检测 wtrees_松阳 javaScript知识图谱 javascript 原型模式开发语言
类型检测类型检测的方法：typeofinstanceofObject.prototype.toStringconstructortypeoftypeof操作符返回一个字符串，表示未经计算的操作数的类型。typeofundefined;//"undefined"typeofnull;//"object"typeof100;//"number"typeofNaN;//"number"typeoftru
基于Debian的SVN服务器自动安装脚本大刘讲IT debian svn 服务器
SVN服务器自动安装脚本功能概述此Bash脚本用于在Debian系统上自动安装和配置SVN（Subversion）服务器。脚本提供了两种部署方式：svnserve（独立服务器）和Apache（基于HTTP的服务器），并包含完整的错误处理、自动修复和故障排查功能。主要功能自动检测和安装基础依赖清理已有SVN环境（可选保留现有仓库）支持svnserve和Apache两种部署方式自动创建SVN仓库和用户
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
点云空洞的边界识别提取 pso-bp 神经网络的模型来修复点云空洞附python代码点云-激光雷达-Slam-三维牙齿激光雷达点云 c++为主神经网络人工智能深度学习点云 python
代码是一个Python程序，用于处理3D点云数据，特别是检测和修复点云中的孔洞区域。1.**导入库**：-`numpy`：用于数学运算。-`open3d`：用于处理3D数据和可视化。-`torch`：PyTorch库，用于深度学习。-`torch.nn`和`torch.optim`：PyTorch的神经网络和优化器模块。-`mpl_toolkits.mplot3d`和`matplotlib.pyp
harmony OS NEXT-音频录制与播放模块遇到困难睡大觉哈哈音视频 harmonyos 华为鸿蒙
HarmonyOS音频录制与播放模块1.模块功能概览麦克风权限动态检测与申请音频录制功能（支持参数配置）音频波形实时可视化（暂时未完善，先凑合看，后续会完善）录音文件播放功能2.权限检测流程1.代码实现asynccheckPermission(){constmanager=abilityAccessCtrl.createAtManager();//首次权限申请constresult=awaitma
怎么测试代理IP的速度?如何解决电脑设置代理掉线问题？ xinxinhenmeihao tcp/ip 网络协议代理IP
如何测试代理IP的速度测试代理IP的速度可以通过以下几种方法进行：使用在线代理测试工具：有许多在线服务提供代理IP的速度测试，如ProxyBench、HideMy.name等。这些工具通常会自动检测代理IP的响应时间、下载速度等指标。手动测试：配置浏览器或系统使用代理IP。访问速度测试网站，如Speedtest.net，进行速度测试。比较使用代理前后的速度差异。编写脚本测试：使用编程语言（如Pyt
【使用 Python 结合 ADB 监控进程状态】开心呆哥 python adb 开发语言
在Android设备上，有时我们需要监控某些关键进程，例如Bluetooth、WiFi、Tuner等，确保它们在被杀死后能够自动拉起。这在自动化测试和系统稳定性验证中尤为重要。本篇博客将介绍如何使用Python结合ADB命令，编写一个脚本来检测进程状态，并在进程被杀死后检查它们是否重新启动。1.需求分析我们的目标是：通过ADB查询目标进程（如bluetooth、tuner）的状态。记录当前正在运行
android 基于OpenCV4.8微笑检测自动拍照 mmsx android 作业源码分享 android opencv
一，前言1、基于OpenCV4.8微笑检测自动拍照存储2、左侧有一个预览小框，有人脸时候会有红色框框。3、当真人入境时候，微笑。相机预览捕捉到了人的微笑，自动拍照保存。opencv库的编译就不说了。这篇有介绍：androidopencv导入进行编译_编译androidopencv-CSDN博客二、加载人脸特征和微笑特征文件faceCascade=loadCascade(R.raw.haarcasc
CDN防御如何保护我们的网络安全？ cdncdn缓存网络安全
在当今数字化时代，网络安全成为了一个至关重要的议题。随着网络攻击的日益频繁和复杂化，企业和个人都面临着前所未有的安全威胁。内容分发网络（CDN）作为一种分布式网络架构，不仅能够提高网站的访问速度和用户体验，还能够在很大程度上增强网络安全防护能力。本文将探讨CDN防御如何保护我们的网络安全。1、CDN防御的首要本领是分布式抗DDoS攻击DDoS攻击，即分布式拒绝服务攻击，犹如网络中的“洪水猛兽”，攻
在雷池社区版 WAF 通过文件更新 SSL 证书的方法运维服务器ubuntu
有些用户在使用雷池WAF的证书管理功能时，觉得手动申请的证书需要去界面上传一次略显繁琐，想通过一个固定的目录存储证书文件，覆盖后让雷池自动检测并更新，这样可以通过一些自动化工具来完成整个流程。相关的ISSUE有：证书增加使用路径导入方式手动更新证书文件并重启容器后，【证书管理】界面的有效期时间没有同步关于结合acme.sh自动部署证书的建议因此为了解决或者优化上面的问题，雷池社区版在7.2.0版本
网站安全科普：守护你的数字家园网络安全
在互联网时代，网站已成为我们生活和工作的重要组成部分。然而，网站安全问题也日益突出，数据泄露、网络攻击等事件频发，给个人和企业带来巨大损失。本文将为您科普网站安全知识，帮助您守护数字家园。一、网站安全威胁无处不在数据泄露：网站数据库被黑客攻破，用户个人信息、财务数据等敏感信息被窃取。恶意软件：网站被植入恶意代码，用户访问时会被感染病毒、木马等，导致设备损坏或信息泄露。网络钓鱼：假冒正规网站，诱导用
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟