2-3 异常检测 A fast and noise resilient cluster-based anomaly detection 笔记

一、基本信息

  题目:A fast and noise resilient cluster-based anomaly detection
  期刊/会议:Pattern Analysis and Applications
  发表时间:2017年
  引用次数:6

二、 论文总结

2.1 研究方向

  基于聚类的异常检测

2.2 写作动机

  基于聚类的异常检测算法中,很多都是使用欧氏距离,这就默认假设数据是球状分布,而这往往不符合真实情况。而且聚类时往往需要提前设定聚类数量和阈值,人工调参比较麻烦。因此作者采用了DBSCAN以适应任意形状分布的数据
  使用DBSCAN聚类可以适应任意形状分布的数据,但是异常检测时需要在内存中存储全部的样本点,计算复杂度高,不适合大规模或在线处理。因此作者采用了SGMM方法,用高斯混合模型拟合每个类群以节省存储空间。
  样本中往往含有噪声,异常检测时如果只标记单个样本点的话,容易受噪声影响。因此作者对训练集和测试集都使用DBSCAN,使用一种新的距离度量方式计算训练集和测试集中高斯混合模型的相似度,将与训练集中最相似的类群标签赋给测试集中的类群。

2.3 模型框架

  对训练集(全是正常样本)和测试集(含有异常样本和噪声数据)都进行DBSCAN聚类,对聚类后的每个类群进行建立高斯混合模型,然后交叉计算训练集和测试集高斯混合模型的相似度,取训练集中相似度最高的类群标签赋给测试集中相应的类群。其中在进行高斯混合模型时,会选取核心点,如果样本点落在核心点边界之外,就认为是异常点。(感觉作者在识别异常点方面没有交代清楚,文章重点放在了高斯混合模型和相似度测量)


数据处理流程.png

2.4 创新之处

  文章创新之处主要有两点,是上面提到的写作动机的后两点:对聚类后的类群建立高斯混合模型以节省内存;使用新的高斯混合模型相似度度量方式,进行集体打标签。
  在建立高斯混合模型时,为了自动确定高斯模型的数量,作者首先选取类群中的核心点,核心点的数量就是高斯模型的数量,核心点及其邻居用于计算该高斯模型的均值和协方差矩阵,邻居数量的比例是各个高斯模型的权重。选取核心点的过程如下:
  首先确定半径R,对于类群中的每个点统计半径R内样本点的数量;做降序排列后,选取邻居最多的点作为第一个核心点,删除该核心点和其邻居;选取剩下的点中邻居最多的点作为第二个核心点,并删除邻居。一直进行下去,直到全部点都被处理完。
  新的相似度度量方式是基于KL散度的,因为KL散度不是对称的,所以作者稍加处理,使用取平均的方式得到对称的距离度量方式。


image.png

你可能感兴趣的:(2-3 异常检测 A fast and noise resilient cluster-based anomaly detection 笔记)