异常检测(Anomaly Detection)综述

异常检测一直是机器学习中一个非常重要的子分支,在各种人工智能落地应用例如计算机视觉、数据挖掘、NLP中,异常检测算法都是很热门的研究方向,特别是大数据时代,人工处理数据的速度已经远远赶不上机器了,所以更快地检测数据中的异常情况成为了我们当下非常重要的任务。在深度学习广泛的推广之前,传统的异常检测算法有很多,例如高斯拟合,半监督学习等等,而在深度学习大火之后,人们也开始研究将深度学习应用于各种异常任务中(也就是Deep Anomaly Detection,以下统称DAD),并取得了很大的成功,本文将把当下该方向热门的研究方向分类并列举了对应的文章,希望能帮助大家更好地理解此方向的研究。


异常检测,从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术,也叫outliers。例如在计算机视觉的应用中,有人在抖音发表一个视屏,在边骑车边打电话,那这就是个不符合规范的视屏,我们能否采用一些方式来将其检测出来,再例如在数据挖掘领域中,那异常检测的应用就更广泛了,比如信用卡盗刷,超大金额支出等等。通常情况下,在我们阅读论文的过程中,异常检测(Anomaly Detection)也被叫做,Novelty Detection,Outlier Detection,Forgery Detection,Out-of-distribution Detection。在阅读论文的情况,这些名词也有轻微的区别,以计算机视觉为例,如下图所示。

在计算机视觉的基本任务——图像分类中,单分类与多分类问题,将几种概念的细微区别基本阐述清楚了。Anomaly Detection指在不属于该分类的数据集中,而Novelty是检测可能属于该分类但却没见过(Unseen)也就是Novel的数据集,而OOD(out-of-distribution)则是多分类中不同目标的分布,这些任务在接下来的论文中,也经常有人进行相应的研究。



1. DAD研究的主要元素

(1) 异常数据集

  • 点集

  • 连续集

  • 团队集

(2) 异常检测模型

  • 无监督学习、AutoEncoder、GAN、矩阵因子分解

  • 半监督学习、强化学习

  • Hybrid(混种)、特征提取+传统算法

  • 单分类神经网络

(3) 异常检测应用

  • 诈骗检测

  • 网络侵入检测

  • 医学异常检测

  • 传感器网络异常检测

  • 视屏监督

  • 物联网大数据异常检测

  • 日志异常检测

  • 工业危害检测

2. 异常检测论文分类


(1) 数据的连续性

(2) 数据标签的可用性

  • 监督学习Supervised Learning

  • 半监督学习Semi-supervised Learning

  • 无监督学习Unsupervised Learning

(3) 基于训练对象的模型

  • 深度混种模型Deep Hybrid Model(DHM)

  • 单分类神经网络One-Class Neural Networks(OC-NN)

(4) 数据异常类型

  • 点集Point

  • 连续集Contextual

  • 团队集Collective or Group

(5) 异常检测输出类型

  • 异常分数Anomaly Score

  • 标签Lable

(6) 异常检测应用


   四、原始数据的连续性Nature of Input Data

在DAD问题中选择怎样的网络结构很大部分取自于原始数据(raw/input data)的类型,原始数据在广义上我们可以分为连续型(Sequential)与非连续型(Non-sequential),如何选择相应的模型,我列举在下表中。











   五、数据标签的可用性Availability of Labels


1. 监督Supervised DAD


2. 半监督Semi-supervised DAD


3. 无监督Unsupervised DAD


1. 深度变种模型Deep Hybrid Models(DHM)

2. 单分类神经网络One-Class Neural Networks(OC-NN)

1. 点集Point


2. 连续集Contextual or Conditional


3. 团队集Collective or Group


