综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)

1.前言

随着数据规模的增加,Deep learning比传统机器学习的方法更好,如下图所示:
综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第1张图片

2.anomalies VS novelties

综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第2张图片

3.Deep anomaly detection(DAD)的动机与挑战

  • 在异常检测上面,由于数据结构越来越复杂,传统算法在图像和学列数据集上的表现变得次优了;
  • 大规模异常检测的需要;
  • DAD技术能从数据中学到hierarchical discriminative features,这种自动学习特征的能力减少了手动开发,可完成端到端的异常检测;
  • 但是对正常数据和异常数据区分的边界定义不明确或者发生变化。

4.deep learning-based anomaly detection 的各个方面

4.1.输入数据的性质

数据分类:

  • sequential (eg, voice, text, music, time series, protein sequences)
  • non-sequential data (eg, images, other data)

数据分类:

  • low-dimensional data
  • high-dimensional data(网络层数越多,表现效果越好)

4.2根据数据的标签获得性DAD分类

4.2.1有监督的异常检测

对有异常数据和正常数据标签的数据集,可以训练一个分类器,但是由于标签训练样本难以获得和数据的不平衡性导致的效果不好,导致此类算法并未受到欢迎

4.2.2半监督的异常检测

由于正常样本标签更容易获得,此类算法被广泛采用。使用深度自编码器的一种常见方式就是在正常样本上用半监督方式对它其训练
。而正常样本在自编码器中会产生比异常样本呢耕地的重构误差(reconstruction errors)

4.2.3无监督的异常检测

此类算法仅仅根据数据样本的固有属性来检测异常值。

前提假设:

  • 在原始的或者潜在的特征空间,正常区域与异常区域可以区分出来
  • 在数据样本中,大量的数据是正常数据
  • 无监督异常检测基于数据集的固有属性(距离或者密度)产生一个数据样例的异常分数。

优点:

  • 该技术是通过学习数据集中的潜在特征以区分正常数据与异常数据点,即提取数据的共性以检测异常。
  • 它不需要标注过的数据进行训练,具有成本效益。

缺点:

  • 在复杂的、高维的空间学习数据的共性是一项挑战
  • 通过自编码器训练时,经常需要调参

例子

技术 全称 学习笔记(待定)
LSTM Long short Term Memory Networks
AE Autoencoders
STN Spatial Transfomer Networks
GAN Generative Adversarial Network
RNN Recurrent Netural Network
AAE Adversarial Autoencoders
VAE Variational Autoencoders

4.3根据训练目标的DAD分类

4.3.1Deep Hybrid Models (DHM)

DHM就是将深度神经网络自编码器作为特征提取器,然后将隐藏层的特征作为传统异常检测算法的输入,比如 one-class SVM。但是它具有缺乏定制的训练慕白哦,导致模型难以提取丰富的各种特征去检测异常。为了解决,提出了一些变体,比如Deep one-class classification (Ruff et al. [2018a]
综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第3张图片

4.3.2One-Class Neural Networks (OC-NN)

该算法结合了深度网络提取渐进丰富的数据表示能力和创建一个正常数据边界的单类目标。关键原因:1.在隐藏层的数据表示由OC-NN的目标驱动,这目标也就是为异常检测定制的。

4.4异常的类型

综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第4张图片

4.4.1Point Anomalies

  • 大多数的工作都是基于点异常。点异常经常表示那些不规范或者有偏差,可能没有特别的解释。

4.4.2Contextual Anomaly Detection

上下文异常定义为考虑了上下文和行为异常。使用的上下文特征就是时间或者空间。
综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第5张图片

4.4.3Collective or Group Anomaly Detection

综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第6张图片

4.5DAD的输出

4.5.1异常分数

Anomaly score 也称为decision score,比二值标签反应更多的信息。比如Deep SVDD approach.

4.5.2标签

无监督异常检测通常就是要哦那个自编码器衡量残差向量的大小(就是重构误差),然后通过排序或者设定阈值来标记数据

5.深度异常检测DAD的应用

5.1入侵检测

  • 基于主机的一擦汗给你检测系统HIDS
  • 网络入侵检测系统NIDS

5.2欺诈检测

  • 银行欺诈
  • 移动蜂窝网络欺诈
  • 保险欺诈
  • 医疗保健欺诈

5.3恶意软件检测

5.4医疗异常检测

5.5社交网络异常检测

5.6日志异常检测

5.7物联网大数据异常检测

5.8工业异常检测*

部分文献利用深度学习模型去检测工业设备故障显示了很大的希望(Ramot-soela et al. [2018], Mart´ı et al. [2015])。在该领域的异常检测的挑战就在于数据的数量和动态性,因为设备的故障由各种各样的因素引起。下表展示了一些在工业领域的DAD技术综述:DEEP LEARNING FOR ANOMALY DETECTION: A SURVEY(未完成)_第7张图片

5.9 时间序列异常检测

  • 单变量时间序列异常检测
  • 多变量时间学列异常检测

5.10 视频监控

你可能感兴趣的:(anomaly,detection,数据挖掘,神经网络,深度学习)