2-11 异常检测 Efficient algorithms for mining outliers from large data sets 笔记

一、基本信息

  题目:Efficient algorithms for mining outliers from large data sets
  期刊/会议:ACM SIGMOD
  年份:2000
  引用次数:1866

二、论文总结

2.1 研究方向

  大数据异常检测。

2.2 写作动机

  以前的异常检测方法大多是基于统计方法,但是数据的分布往往是未知的,与假设不符。本文认可了一种异常点的定义方式,并用基于距离的方式查找异常点。

2.3 创新之处

  首先采用聚类的方式将数据聚成若干类,计算每个簇中样本点的k近邻距离的上下界,将距离过小的簇删除掉,以减少计算量。

2.4 实现思路

  首先定义异常点,首先对所有样本点计算k近邻距离,k近邻距离最大的前n个点认为是异常点。

  1. 对原始数据使用BIRCH聚类
    聚类方法有很多,作者采用BIRCH是因为它的速度比较快,适合处理大数据。
  2. 计算每个簇中样本点的k近邻距离的上下界
    作者定义了公式计算簇与簇之间的最短和最长距离,交叉计算每两个簇(簇中至少有k个样本点)之间的最短距离和最长距离。对每个簇,取最大的最长距离和最短距离作为该簇k近邻距离的上下界。
  3. 删除距离过小的簇,将剩下的簇包含的样本点作为候选点
    将包含样本点数量大于n的簇对应的最短距离进行降序排列,取最小值作为阈值,然后将所有簇的最长距离与阈值作比较,删掉小于阈值的簇,剩下的簇包含的样本点作为候选点
  4. 在候选点中寻找异常点
    对每个点都计算k近邻距离,然后降序排列,最大的前n个点当做异常点,可以使用R-tree或kd-tree建立索引进行加速。

你可能感兴趣的:(2-11 异常检测 Efficient algorithms for mining outliers from large data sets 笔记)