Isolation Forest论文总结

1.目前异常检测

应用:金融欺诈、网络攻击、星体发现。
目前的方法:聚类、统计分析、分类。
存在的缺点:
① 只关注正常数据;
② 时间耗费大。

异常的特点:
A.量少;
B.特殊

根据异常的特点可以将异常与正常隔离开,时间成本也不高。

得到本文提出的方法:建立二分树隔离异常点,这种方法有如下优势:

  • 只需对少量异常点隔离;
  • 计算量少,没有大量的距离计算;
  • 线性时间复杂度,低空间复杂度;
  • 适用于大数据、高维度。

2.方法概述

根据数据的属性构建树,本文中只采用连续属性,并且每次选择特征都是随机的,用于分割的特征值也是随机选取。如图,对于数据属性集d,随机选取属性q1,并从q1取值的最大值和最小值之间随机取值q,利用q1>p将其分为两部分,然后对着两部分分别进行上述操作,直到结束条件成立。最终用结点在树中的路径长度表示其是否为异常,路径短表示为异常的可能性更大。
Isolation Forest论文总结_第1张图片
进行异常判断时,需要定义一个异常分数s,s的计算公式论文中有列出,其与路径长度是反比的关系。

3.这种方法存在的问题

① Swamping: 表示正常被识别为异常,这种情况发生在正常样本距离异常很近的情况下。
② Masking: 表示异常被识别为正常,这种情况发生在异常聚簇时,需要多步隔离异常时。
论文中采用子采样的方法解决这类问题。子采样一方面控制数据大小,另一方面可以学习到不同的情况,比如可能包含异常也可能不包含。

4.iForest

只有两个参数:采样大小以及树的数目。
训练:子采样->建树->组成森林,论文中将子采样大小设置为256,树的数目设为100。
测试:获取每个实例的异常分数(每棵树的平均路径长度)。

论文后面还提到如果只训练正常样本的话,需要增加子采样的大小才能保证准确率。

论文链接:https://www.researchgate.net/publication/224384174_Isolation_Forest

你可能感兴趣的:(Isolation Forest论文总结)