2-6 异常检测 LSHiForest: A generic framework for fast tree isolation based ensemble anomaly analysis 笔记

一、基本信息

  题目:LSHiForest: A generic framework for fast tree isolation based ensemble anomaly analysis
  期刊/会议:IEEE ICDE
  发表时间:2017年
  引用次数:9

二、论文总结

2.1 研究方向

  将孤立森林和局部敏感哈希(LSH)结合起来,提出通用的框架LSHiForest

2.2 写作动机

  在大数据异常检测领域,基于采样的方法比较有优势,其中iForest最为出名。但是传统的iForest算法和SCiForest的作者声称他们的算法不依赖于任何距离相似度,可以处理任意形状分布的数据。但是本文作者提出LSHiForest框架后发现iForest和SCiForest是本框架的特例,而且iForest基于L1距离,SCIForest基于角度距离,因此iForest和SCiForest的使用情况有了限制。
  局部敏感哈希是一种适用于高维数据搜索的技术,它通过将相似的高维数据映射到同一个哈希桶里,达到减小搜索量以提升速度的目的。低维数据可以用KD树。
  作者将孤立森林和LSH结合后,可以利用LSH领域的知识,提出基于L1距离、基于L2距离、基于角度距离、基于核函数等等孤立森林,以适应不同的数据。

2.3 算法框架

  采样,使用variable subsampling[1]
  计算树的最高高度[2][3]
  递归构建LSHiTree[4]
  计算路径长度,计算异常得分[2]
  里面涉及到很多公式,很多还没有看明白,里面涉及到很多文献,已在第三部分列出。

三、涉及的文献

[1] Aggarwal C C, Sathe S. Theoretical foundations and algorithms for outlier ensembles[J]. ACM SIGKDD Explorations Newsletter, 2015, 17(1): 24-47.
[2] Bawa M, Condie T, Ganesan P. LSH forest: self-tuning indexes for similarity search[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 651-660.
[3] Szpankowski W. On the analysis of the average height of a digital trie: Another approach[J]. 1986.
[4] Wang J, Shen H T, Song J, et al. Hashing for similarity search: A survey[J]. arXiv preprint arXiv:1408.2927, 2014.

你可能感兴趣的:(2-6 异常检测 LSHiForest: A generic framework for fast tree isolation based ensemble anomaly analysis 笔记)