基于最近邻的异常检测 (1)——Distance-based方法

因为论文的需要,涉及到许多无监督异常检测算法。为了便于知识管理,打算对基于最邻近(k-NN,kth-NN,LOF,Loop等)、基于统计(HBOS)和孤立森林(Isolation Forest)算法进行总结。目前,无监督异常检测算法通常是设计某种策略为每一个数据样本分配相应的异常值得分,根据得分进行排序(得分越高,异常的程度越大),选择TOPn作为异常目标,其中n的设置需要经验知识。

       基于最邻近的无监督异常检测算法主要有两大类:Distance-based 和 Density-based。由这两种基础的算法衍生出一系列变种共同组成了这一类异常检测技术的内容。Distance-based算法由3个关键的要素组成:1.TOPk近邻目标搜索;2.样本之间的相似性度量(通常是高维);3.异常得分的建模。对于“TOPk近邻目标搜索”一向是数据挖掘的热点问题(特别是对于高维的快速搜索)这里先按下不表。另外,通常选择欧式距离作为相似性度量方法。基本不同的异常值得分定义,有两种常见的Distance-based算法,文献[1]称为k-NN和kth-NN:

1. The definition of kth-NN: The anomaly score of a data instance is defined as its distance to its kth nearest neighbor i

你可能感兴趣的:(outlier,detection,Distance-based,Nearest,neighbor,based,anomaly,detection,outlier,detection,data,mining)